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FRONTISPICIO. Grabado en madera del tratado de mi- 
nería y metalurgia De Re Metollica realizado en 1556 por 
Georgius Agricola, Las minas de Agrícola estaban lejos 
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animal. Un caballo daba vuelta a la rueda, hecha a la 
medida del caballo, una y otra vez, para bombear el aire 
dentro del tiro de la mina. Dado que una operante repetida 
es una operante reforzada por la presentación de la recom- 
pensa o la retirada del castigo, esta fue una precursora del 
moderno condicionamiento operante. Aparentemente el ca. 
ballo estaba privado de alimento y respondía para obtener 
comida de un edministrador primitivo de comida. 
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PRÓLOGO 


ste es uno de los 10 cuadernos que forman una serie cuyo tema es la 
conducta. Todos ellos fueron escritos por el mismo autor, y abarcan el amplia 
área de la psicología general; en la cubierta posterior se muestra una lista de 
los títulos de cada uno de los cuadernos. Todos estos cuadernos son inde- 
pendientes y pueden estudiarse por separado. Sin embargo, fueron diseñados 
para usarse en combinación; en forma colectiva integran un texto básico flexi- 
ble y comprensivo para un curso de psicología general. 

Los cuadernos son más amplios que los capítulos de un libro de texto, dado 
que contienen material original que ayuda a cimentar el proceso de aprendi- 
zaje; se ha reproducido muy poco material de otras fuentes. Varios cuadernos, 
leídos en cualquier orden, equivalen a un libro de texto común y probablemente 
no requieren lecturas complementarias. 

Las doctrinas psicológicas contemporáneas han sido cxaminadas exhaus- 
tivamente; sin embargo, quizá se pueda lograr una mejor comprensión de la 
psicología contemporánea en términos de su larga y distinguida herencia, ya 
que la psicología moderna es el resultado de un flujo ininterrumpido de ideas, 
Es por esto que estos cuadernos están orientados en forma histórica. El finado 
E. G. Boring escribió: “Uno descubre que necesita conocer el pasado, no para 
entender el futuro, sino para comprender el presente.” 
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Conducta y 


condicionamiento 


Operante 


5.1 INTRODUCCIÓN 


Las respuestas operantes condicionadas com- 
prenden aprendizajes semicomplejos y se defi- 
nen como cambios en las respuestas “volunta- 
rias” de un animal después de que han sido 
seguidas, en ocasiones previas, por la presenta- 
ción de la recompensa o la retirada del castigo. 
Las respuestas operantes condicionadas se cons- 
truyen sobre la actividad “azarosa”, general- 
mente asociada a los “motivos”, y se distinguen 
de las respuestas clásicamente condicionadas 
construidas sobre reflejos innatos provocados 
por estímulos externos específicos. Los anima- 
les superiores presentan más respuestas emitidas 
que reflejos provocados y por tanto, exhiben 
más condicionamiento operante que clásico, 

Los psicólogos se interesan en el estudio del 
condicionamiento operante y sus respuestas por 
varias razones: 


O Las respuestas operantes condicionadas, 
los “bloques o ladrillos”? que construyen mu- 
chos patrones complejos de aprendizaje que 


impregnan nuestra conducta, explican, por 
ejemplo, la insistencia de los niños en querer 
juguetes, el vicio de los apostadores y la adqui- 
sición del lenguaje por los bebés. 

U El condicionamiento operante es un caso 
histórico en la evolución de la ciencia. La inves- 
tigación se retrasó considerablemente porque 
el eminente Iván Pavlov decretó (erróneamen- 
te) que los reflejos clásicos condicionados 
eran los elementos primarios de la conducta 
humana de aprender. La marcada curiosidad 
acerca de las respuestas operantes condiciona- 
das es un desarrollo reciente, 

O Las respuestas operantes condicionadas se 
estudian con mayor eficacia que otras respues- 
tas aprendidas, Los psicólogos investigan los 
sutiles aspectos de las respuestas operantes con- 
dicionadas con instrumentos electromecánicos 
que automáticamente programan estímulos y 
registran las respuestas durante largos periodos. 

LJ A la investigación sobre respuestas ope- 
rantes condicionadas se la describe a veces como 
“el análisis experimental de la conducta”. Los 
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psicólogos que trabajan en esta área son los 
exponentes modernos del conductismo —una 
escuela de teóricos que interpretan mecanicis- 
tamente toda la conducta sin referencia a tér- 
minos mentalistas como “mente” o “voluntad”. 

O La investigación en el condicionamiento 
operante ha brindado nuevas e insospechadas 
ideas con respecto a la eficacia de recompensa 
y/o castigos en la educación en general. 

La investigación en el condicionamiento ope- 
rante ponc en tela de juicio el que se castigue 
a los criminales; el castigo no necesariamente 
previene la aparición de futuros actos ilegales. 
La naturaleza de las respuestas operantes con- 
dicionadas puede servir de base para la revisión 
de nuestros códigos legales, 

[Los métodos de establecer respuestas Ope- 
rantes condicionadas han sido aplicados al cn- 
trenamiento de los animales con éxito espec- 
tacular. En los circos, en los zoológicos y aún 
en las casas, los animales aprenden conducta 
complicada en cuestión de minutos. El condi- 
cionamiento operante preparó a los chimpancés 
astronautas que fueron lanzados al espacio antes 
que los astronautas humanos, entrenó a palo- 
mas para clasificar naranjas y píldoras y enseñó 
a los perros a guiar a los ciegos, 

LJ] En algunos refugios de los bosques y en 
criaderos, los animales salvajes y los peces apren- 
den, gracias al condicionamiento operante, a 
evitar a los cazadores y pescadores. Por ello la 
vida animal puede resultar un poco más difícil 
de destruir. 

[7] El condicionamiento operante permite la 
investigación de la sensación y de la percepción 
en animales inferiores ---procesos que alguna 
vez se creyó fuera del alcance de la ciencia. 
Gracias a nuevos métodos psicofísicos semiauto- 
máticos, los psicofisiólogos miden y registran las 
sensaciones de color en los animales, la discri- 
minación de color, la adaptación a la obscuridad 
y brillantez inducida, Estos datos son funda- 


mentales para la comprensión del origen filo- 
genético del hombre. 

O Las respuestas operantes condicionadas 
son sensibles a muchas drogas y proporcionan 
métodos convenientes para evaluar los efectos 
conductuales de los nuevos compuestos quími- 
cos. Las respuestas operantes condicionadas se 
pueden registrar indefinidamente sin pausas, y 
son valiosas en la nueva ciencia de la psico- 
farmacología, 

U Muchos patrones de conducta que carac- 
terizan la interacción social (en grupos) se ad- 
quieren mediante el condicionamiento operante 
(véase el Cuaderno Temas de psicología núm. 4). 

O La conducta, especialmente la de los ni- 
ños, puede ser modificada por el condiciona- 
miento operante, Se puede crear la conducta 
deseable y eliminar la indeseable, 

O El condicionamiento operante ha revolu- 
cionado el proceso educativo. Los principios 
del condicionamiento operante son los princi- 
pios de la instrucción programada y de las má- 
quinas de aprendizaje ancladas a computadoras. 

En este cuaderno se discute la naturaleza y 
origen de los diversos tipos de respuestas ope- 
rantes condicionadas, los compara con los re- 
flejos condicionados clásicos, describe su adqui- 
sición y extinción, establece su sensibilidad a 
algunas drogas y demuestra su aplicación a la 
modificación de la conducta y a la instrucción 
programada. 


5.2 LOS PRECURSORES DEL 
CONDICIONAMIENTO 
OPERANTE 


Los principios del condicionamiento operan- 
te se encuentran en las observaciones sobre pe- 
rros de Lloyd Morgan en 1894 y en los experi- 
mentos con gatos de E. L. Thorndike en 1898 
-—ambos precedicron el descubrimiento de 
Pavlov de los reflejos condicionados clásicos en 


1902. 
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Morgan, uno de los primeros psicólogos bri- 
tánicos, conjeturó que casi toda la conducta 
“pensante” de los animales, que superficialmen- 
te indica procesos elevados de pensamiento, 
podía ser explicada adecuadamente por el 
aprendizaje inferior de “ensayo y error”. Escri- 
bió: “La manera como mi perro aprendió a 
levantar la manija de la puerta del jardín, y 
de este modo a salirse, ofrece un buen ejem- 
plo de aprendizaje de ensayo y error. La puerta 
de hierro se detiene por una manija o pasador, 
pero se abre sola, por su propio peso, si se 
levanta el pasador... Cuando mi fox-tcrrier 
salió al jardín, quiso, naturalmente, irse a la ca- 
rretera que pasa por la casa, donde existen mu- 
chas tentaciones para él —la oportunidad de 
correr, husmear a otros perros, quizá algunos 
gatos a los cuales perseguir. El perro miró hacia 
fuera por entre los barrotes de la puerta y, en 
cierto momento, quedó debajo del pasador, y 
lo levantó con la cabeza. Después se retiró y 
miró a otra parte y entretanto la puerta se abrió 
por su propio peso. He aquí una ocurrencia 
afortunada producto de las tendencias natura- 
les del perro... Después de 10 o 12 experiencias 
semejantes, en cada una de las cuales el éxito 
sc logró más rápidamente con menos mirar ha- 
cia lugares irrelevantes, el fox-terrier aprendió 
a irse derecho al “blanco”. En este caso levantar 
el pasador fue, incuestionablemente, producto 
de un accidente y el truco se volvió habitual 
por la asociación del acto azaroso y el feliz es- 
cape... No se necesita pensamiento lógico por 
parte del perro para interpretar los hechos, y 
no debemos asumir su presencia dado que la 
evidencia no nos compele a ello”. Una genera- 
lización de esta última afirmación —-que la in- 
terpretación de la conducta animal debe hacerse 
al nivel más hajo que sea consistente con la 
observación—- es un axioma psicológico y se le 
llama “El canon de Lloyd Morgan”. 

Thorndike, uno de los primeros psicólogos 
norteamericanos, hizo experimentos controlados 


paralelos a las observaciones semicasuales de 
Morgan. Construyó una caja-jaula con barras 
de madera, en cada experimento encerraba den- 
tro a un gato hambriento y dejaba la comida 
afuera. En la mayoría de los casos el gato podía 
escapar y comerse el alimento ejecutando: 1) 
una simple respuesta “mecánicamente orienta- 
da” ——como jalar una cuerda o presionar un 
botón (lo que abría automáticamente la puer- 
ta), o 2) una simple respuesta “personalmente 
orientada” —como rascarse o lamerse (el expe- 
rimentador abría la puerta). Thorndike repor- 
taba la conducta típica de escape: “Cuando se 
le ponía dentro de la caja el gato mostraba 
señales evidentes de incomodidad... Trataba 
de colarse por entre los barrotes, mordía o ara- 
ñaba las barras o cl alambre, metía las patas 
por cualquier abertura, arañaba cualquier cosa 
de afuera que era capaz de alcanzar y todo 
lo de adentro que quedaba a su alcance... El 
gato que, en su lucha, está arañando todo lo 
que puede, probablemente jalará la cuerda o 
apretará el botón y la puerta se abrirá. Gra- 
dualmente, todos los impulsos infructuosos se 
eliminan y el impulso particular que conducía 
al éxito se acentuaba hasta que, después de 
muchos ensayos, el gato jalaba la cuerda o apre- 
taba el botón inmediatamente... La asociación 
entre lamerse o arañar y escapar se estableció 
de manera semejante”. 

En 1911 los experimentos de T'horndike le 
llevaron a formular una piedra angular de la 
moderna teoría del aprendizaje, La ley del Efec- 
to: “De las diversas respuestas que se producen 
en una misma situación, aquellas que se acom- 
pañan, o se siguen inmediatamente, por la satis- 
facción del animal (dejando constante lo de- 
más) se conectarán más firmemente con la 
situación, de tal suerte que cuando reaparezca 
la situación, ellas tendrán mayor probabilidad 
de reaparecer; aquellas otras que se acompa- 
ñan, o siguen inmediatamente, de incomodidad 
para el animal (todo lo demás constante) verán 
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debilitada su conexión con la situación de tal 
suerte que cuando reaparezca la situación ellas 
tendrán una menor probabilidad de reaparecer. 
A. mayor satisfacción o incomodidad, mayor re- 
fuerzo o debilitamiento de la conexión”. Los 
principios generales de la Ley del Efecto bifur- 
cada mucstran una indisputada fidelidad a pri- 
mera vista, porque un acto tiende a reaparecer 
si su previa ocurrencia ha llevado a la recom- 
pensa, y un acto tiende a no reaparecer si su 
previa ocurrencia condujo al castigo. La rama 
positiva o de recompensa de la ley está apoyada 
por enormes cantidades de evidencia experi- 
mental y está fuera de discusión. La rama ne- 
gativa o de castigo de la ley, aunque no invá- 
lida, requiere interpretación detallada (véase 
la sección 5.9). 


5.3 SKINNER Y EL CONDICIONAMIENTO 
OPERANTE 


B. F. Skinner (véase la figura 5-1), maestro 
en la universidad de Harvard, se dio cuenta de 
que el perro de Morgan y el gato de Thorn- 
dike no aprendieron por condicionamiento clá- 
sico, sino más bien por un nuevo y diferente 
proceso ahora llamado condicionamiento ope- 
rante (a veces llamado condicionamiento instru- 
mental porque las respuestas voluntarias del ani- 
mal son el instrumento para que se produzca 
el condicionamiento). Esta atrevida posición se 
oponía al influyente dictum de Pavlov - -de que 
todo aprendizaje era el simple encadenamiento 
de reflejos condicionados clásicos. Skinner pos- 
tuló su visión en una serie de artículos comen- 
zando en 1930 y que sintetizó en su libro 
La conducta de los organismos. La mayoría de 
los psicólogos considera este redescubrimiento 
y énfasis sobre el condicionamiento operante 
—más común que el clásico y la hase primaria 
para el “análisis de la conducta”—- como una 
contribución de capital importancia a la psico- 
logía. 


«EL 
Wide World Photos 


FIGURA 5-1. Burrhus F. Skinner, psicólogo contemporáneo 
quien reconoció al condicionamiento operanie (y no al con- 
dicionamiento clásico) como fundamental para casi todo 
el aprendizaje de los organismos superiores. Sus enseñan- 
zas han permeado las ciencias de la conducta dando luz 
a los complejos procesos de aprendizaje, interacción social, 
psicofísica animal, modificación de conducta, adquisición 
del lenguaje e instrucción automatizada. Skinner es el mo- 
derno campeón del conductismo que explora y evalúa toda 
la conducta por medio de experimentos objetivos sin recurrir 
a los conceptos subjetivos de la mente. 


Skinner postuló dos clases de respuestas con- 
ductuales, operante y respondiente. Las respues- 
tas operantes no son reflejas o voluntarias, dado 
que se emiten (como fragmentos de la conduc- 
ta agitada que acompaña a una necesidad) sin 
relación precisa a los estímulos externos; como 
ejemplo de ellas tenemos la casualidad de que 
el perro de Morgan le pegara al pasador y las 
respuestas de patalco de los gatos de Thorndike. 
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La respuesta operante no está innatamente aso- 
ciada a ningún estímulo previo que se pueda 
identificar. Por otro lado, las respuestas respon- 
dientes son reflejas, dado que son causadas o 
provocadas con casi total certeza por estímulos 
externos precisos; como ejemplo de estas tene- 
mos el reflejo salival (provocado por la comi- 
da) y el reflejo pupilar (provocado por la luz). 
La asociación entre el estímulo externo previo y 
la respuesta respondiente es innata y no puede 
ser cambiada, 

Cada una de las dos clases de respuestas es 
la base de un proceso de condicionamiento úni- 
co. Las respuestas operantes son la base del con- 
dicionamiento operante y las respuestas respon- 
dientes son la base de condicionamiento clásico 
(a veces llamado condicionamiento respon- 
diente). 

El proceso de condicionamiento operante re- 
quiere esta secuencia de estímulos y respuesta: 


En | 
gD 


A 


Donde, E? es el estímulo discriminativo (un 
estímulo específico, digamos la luz, al cual se 
asociará la respuesta operante). R? es la respues- 
ta operante (como apretar la palanca), y EF 
es el estímulo reforzante (uno que refuerza de 
acuerdo a la ley del efecto, como el alimento 
o un toque eléctrico). El estímulo reforzante 
sigue sólo a la ocurrencia azarosa de la res- 
puesta operante y no tiene relación alguna con 
las respuestas respondientes provocadas. Después 
del proceso de condicionamiento, la respuesta 
operante ocurre más (o menos) frecuentemen- 
te a continuación del estímulo discriminativo. 
La conexión operante-condicionada final se es- 
tablece entre el estímulo discriminativo (E”) y 
la respuesta operante (R%); el estímulo discri- 


minativo trae aparejada la emisión de la res- 
puesta operante, Cuando el condicionamiento 
está terminado, el estímulo discriminativo se 
llama estimulo discreminativo condicionado y la 
respuesta operante se llama respuesta operante 
condicionada. 

El proceso de condicionamiento clásico re- 
quiere esta secuencia de estímulo y respuesta: 


LA conexión | 


I R 


A 


Aquí E? es un estimulo señalador (un estímu- 
lo específico, digamos, la luz, con la cual la 
respuesta respondiente será asociada), E* es un 
estimulo incondicionado (digamos la comida), 
y RE es la respuesta respondiente (o lo que es 
la misma cosa, un reflejo incondicionado, diga- 
mos la salivación). El estímulo incondicionado 
invariablemente sigue a la presentación del 
estímulo señalador y no tiene relación con cual- 
quiera respuesta operante que pueda ser emi- 
tida, Después del proceso de condicionamiento, 
la respuesta respondiente ocurre con mayor 
frecuer.cia a continuación del estímulo condi- 
clonado, 

La conexión respondiente condicionada final 
se establece entre el estímulo señalador E* y la 
respuesta respondiente (R*); el estímulo seña- 
lador provoca la respuesta respondiente. Cuando 
se ha completado el condicionamiento, el estímu- 
lo señalador recibe el nombre de estímulo con- 
dicionado (señalador) y el reflejo incondicio- 
nado se llama el reflejo condicionado clásico o 
respuesta respondiente condicionada. 

Algunos experimentos de condicionamiento 
clásico y de condicionamiento operante son idén- 
ticos excepto por el procedimiento. Cuando esto 
es así, la correspondencia entre los estímulos 
y las respuestas se muestra de esta manera: 
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Condicionamiento operante Condicionamiento clásico perro puede emitir numerosas respuestas ope- 


rantes después del sonido del tono, pero esas 
respuestas no se registran en el condicionamien- 
to clásico. 

O Una respuesta operante condicionada se 
ha de establecer en un perro. El estímulo discri- 
minativo es el tono, la respuesta operante es 


Estimulo discriminativo 
(más tarde estímulo dis- 
criminativo condicionado) 


Estímulo señalador 
(más tarde, estímulo 

señalador condicionado) | 
Respuesta operante A 


te [más tarde, respuesta 
operante condicionada) 


Estímulo incondicionado 


uo xauOy 


Estímulo reforzante 
condicionado) 


En referencia a este paralelismo, he aquí al- 
gunos ejemplos de condicionamiento operante 
y clásico: 


E] Se ha de establecer una respuesta ope- 
rante condicionada en un perro hambriento. El 
estímulo discriminativo es un tono, la respuesta 
operante es presionar una barra, y el estímulo 
reforzador es la presentación de alimento. Se 
presenta el tono, el perro puede apretar la ba- 
rra, sí lo hace, se presenta la comida. El perro 
recibe la comida sólo cuando presiona la barra; 
cuando el condicionamiento sea completado 
suena el tono y el perro siempre presiona la 
barra; se ha completado la conexión entre el 
estímulo discriminativo condicionado y la res- 
puesta operante condicionada. Nótese que el 
perro saliva de una manera refleja después de 
recibir la comida en la boca, pero esa respuesta 
no se registra en el condicionamiento operante. 

Una respuesta condicionada clásica (respon- 
diente) se ha de establecer en un perro ham- 
briento. El estímulo señalador es un tono, el es- 
tímulo incondicionado es la comida presentada 
en la boca del perro, y la respuesta incondi- 
cionada es la salivación. Suena el tono, se pre- 
senta la comida, y ocurre la salivación. El ali- 
mento en la boca del perro siempre sigue al 
estímulo señalador. Cuando se ha completado 
el condicionamiento, se presenta el tono y el 
perro siempre saliva; se ha completado la co- 
nexión entre el estimulo condicionado y el re- 
flejo respondiente condicionado. Nótese que el 


Reflejo incondicionado 
(después, reflejo eE 


la flexión de la pata delantera y el estímulo re- 
forzante es la presentación de un toque eléc- 
trico (en cualquier parte del cuerpo del perro). 
Suena el tono, el perro puede flexionar la 
pata, y sí NO lo hace, se presenta el toque. El 
perro evita el toque sólo cuando flexiona la 
pata. Cuando el condicionamiento se ha com- 
pletado, suena el tono y el perro siempre flexio- 
na la pata; se ha completado la conexión entre 
el estímulo discriminativo condicionado y la 
respuesta operante condicionada. Nótese que el 
perro (durante y a continuación del condicio- 
namiento operante) flexiona reflejamente des- 
pués de recibir el toque eléctrico que estimula 
los músculos de su pierna; pero esa respuesta 
no se registra en el condicionamiento operante. 

Se ha de establecer, en un perro, una res- 
puesta condicionada clásica (respondiente). El 
estímulo señalador es un tono, el estímulo in- 
condicionado es el toque eléctrico que se da a 
los músculos de la pata delantera del perro, y 
el reflejo incondicionado es la flexión de la pata. 
Suena el tono, se presenta el toque, y ocurre la 
flexión. El toque a los músculos de la pata siem- 
pre sigue al estímulo señalador. Cuando el con- 
dicionamiento se ha completado, suena el tono 
y cl perro siempre flexiona la pata; se ha com- 
pletado la conexión entre el estímulo señalador 
condicionado y el reflejo respondiente condi- 
cionado. Nótese que el perro emite numerosas 
respuestas operantes a continuación del tono, 
pero esas respuestas no se registran en el condi- 
cionamiento clásico. 

Ambos tipos de condicionamiento son impor- 
tantes para el ajuste del organismo. Sobre esto, 
escribió B. F. Skinner: “La esencia del condi- 
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cionamiento clásico es la substitución de un 
estímulo por otro. El condicionamiento clásico 
prepara al organismo al provocar la respuesta 
en presencia del estímulo incondicionado me- 
diante la substitución de cualquier estímulo que 
ha acompañado o anticipado incidentalmente 
al estímulo incondicionado. En el condiciona- 
miento operante no hay substitución de estímu- 
los y por lo tanto no hay señalamiento (seña- 
lización). En el condicionamiento operante, el 
organismo selecciona o elimina de un repertorio 
de respuestas aquellas que producen el reforza- 
miento... El condicionamiento operante es más 
importante. Cuando un organismo encuentra, 
atrapa e ingiere el alimento, ocurren ambas 
clases de condicionamiento. Después de varias 
repeticiones, la vista del alimento provoca la sa- 
livación por condicionamiento clásico, Esta se- 
creción, sin embargo, es inútil a menos que la 
comida se agarre y se ingiera, y sin el condicio- 
namiento operante estas respuestas serían poco 
frecuentes”. 


5.4 PROCEDIMIENTOS DEL 
CONDICIONAMIENTO 
OPERANTE 


Cuatro métodos lógicos de entrenamiento 
construyen una respuesta operante condiciona- 
da, y cuatro métodos lógicos de entrenamiento 
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destruyen una respuesta operante condicionada 
ya existente.* 

Esta sección examina la lógica básica de los 
procedimientos del condicionamiento operante 
y sus descripciones conflictivas, 

Los procedimientos del condicionamiento ope- 
rante fueron derivados en primera instancia, de 
la Ley del Efecto (véase la sección 5.2) que 
igualaban el condicionamiento operante con la 
doctrina del hedonismo en la que cada acto 
está motivado por un deseo de placer (confort) 
y/o por una aversión al displacer (desconfort). 
Por conveniencia, definiremos la recompensa 
presentada o el castigo retirado como evocado- 
res de confort; los cuales el animal persigue o 
busca continuar, y definiremos el castigo pre- 
sentado o la recompensa retirada como evoca- 
dores de desconfort; el cual el animal busca 
descontinuar. Para mayor conveniencia, defi- 
niremos la presentación de la recompensa o la 
retirada del castigo como reforzamiento posi- 
tivo y el castigo presentado o la recompensa 
retirada como reforzamiento negativo. La cla- 
sificación en una tabla de doble entrada se 
presenta en la tabla 5-1 


1G. A. Kimble describió cinco procedimientos de 
entrenamiento operante y estos probablemente agotan 
todos los que son aplicables a los animales. Tres más, 
que todavía no han sido rigurosamente investigados, 
son aplicables a humanos niños y adultos. 


TABLA 5-1 
N o pas y a” > y 
os Es He > + a - E rea ps + ? 
Reforzamiento positivo Reforzamiento negativo 
mn. e " s == 2 - ye 


Reforzamiento negativo 


Reforzamiento positivo 


16 Procedimientos del condicionamiento operante 


Por lo tanto, todos los procedimientos de con- 
dicionamiento operante descansan en la pre- 
sentación o retirada de la recompensa o el cas- 
tigo: 1) presentar la recompensa; 2) retirar el 
castigo; 3) presentar el castigo; 4) retirar la 
recompensa, Así cada uno de estos cuatro re- 
forzamientos, tal como se indica en la tabla 5-1, 
puede seguir la emisión o no emisión de una 
respuesta operante. 

Según la Ley del Efecto, si la respuesta, des- 
pués de emitida, es seguida por el reforzamiento 


positivo la respuesta tenderá a repetirse (for- 
talecimiento) ; si lo que sigue es el reforzamiento 
negativo, la respuesta tenderá a no repetirse 
(debilitamiento). La Ley del Efecto implica, 
aunque no lo afirma explícitamente, que si la 
respuesta no se emite ni se sigue por reforza- 
miento positivo, tal respuesta tenderá a no repe- 
tirse; si se la sigue de reforzamiento negativo 
la respuesta tenderá a repetirse. La respuesta 
será fortalecida o debilitada dependiendo de si 
la respuesta operante se emite o no se emite y 


TABLA 5-2 
cl) (2) (3) (4) (5) 
Presentación Reforzamiento 
Procedimiento o retirada de definido 
de Respuesta la recompensa por la ley Efecto del 
entrenamiento operante o castigo del efecto entrenamiento 
entrenamiento emitida (+) recompensa reforzamiento fortalece (+) 
de recompensa* presentada positivo (+) 
entrenamiento no emitida (—) recompensa reforzamiento fortalece (+) 
de privación retirada negativo (—) 
entrenamiento emitida (+5 castigo reforzamiento fortalece (+) 
de escape? retirado positivo (+) 
entrenamiento no emitida (—) castigo reforzamiento fortalece (+) 
de evitación* presentado negativo (—) 
entrenamiento no emitida (—) recompensa reforzamiento debilita (—) 
de omisión presentada positivo (+) 
entrenamiento emitida (+ recompensa reforzamiento debilita (—> 
de cesación retirada negativo (—) 
entrenamiento no emitida (—) castigo reforzamiento debilita (—) 
de soltar retirado positivo (+) 
entrenamiento emitida (+) castigo reforzamiento debilita (—) 
de castigo* presentado negativo (—) 


* Se discute en el texto La regla del reforzamiento: Si (2) y si (3) entonces (5). 
La valencia de (2) por la valencia de (4) =a la 


valencia de (5). 
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si la respuesta operante es seguida por relorza- 
miento positivo o negativo. 

Dado que la emisión de la respuesta puede 
seguirse de cuatro reforzamientos los enumera- 
dos arriba y dado que la no emisión de la res- 
puesta puede seguirse por los mismos cuatro 
entrenamientos, emergen exactamente ocho mé- 
todos (tal como se muestra en la tabla 5-2) 
para fortalecer o debilitar una respuesta ope- 
rante. 

La primera columna de la tabla 5-2 da el 


Aplicaciones fuera del 
laboratorio 


Afirmación característica 


nombre del procedimiento de entrenamiento; 
la segunda columna anota la emisión o no emi- 
sión de la respuesta operante; la tercera columna 
establece la presentación o retirada de la re- 
compensa o castigo[ contingente sobre la emi- 
sión o no emisión indicada en la columna 2); la 
cuarta columna indica el reforzamiento positivo 
o negativo de acuerdo a la Ley del Efecto; y 
la quinta columna marca el destino de la res- 
puesta operante —debilitarse o fortalecerse. 

La tabla 5-2 tiene dos propiedades críticas: 


Reforzamiento definido 
por Skinner 


“Si usted emite la respuesta, yo 
presentaré una recompensa.” 


“Si usted no emite la respuesta, 
yo retiraré la recompensa.” 


“Si usted emite la respuesta, yo 
retiraré un castigo.” 


“Si usted no cmite la respuesta, 
yo presentaré un castigo.” 


“Si sacas buenas calificaciones, te 
daré una bicicleta.” 


“Si no sacas buenas calificaciones, 
te quitaré tu bicicleta.” 


“Si sacas buenas calificaciones, te 
dejaré salir de tu cuarto.” 


“Si no sacas buenas calificaciones, 
te daré una bofetada.” 


reforzamiento positivo 


castigo 


reforzamiento negativo 


castigo 


“Si usted no emite la respuesta, 
yo presentaré una recompensa.” 


“Si usted emite la respuesta, yo 
retiraré la recompensa.” 


“Si no te muerdes las uñas, te 
daré una bicicleta.” 


“Si te muerdes las uñas, te qui- 
taré la bicicleta.” 


reforzamiento positivo 


castigo 


“Si usted no emite la respuesta, 
yo retiraré un castigo.” 


“Si usted emite la respuesta, yo 
presentaré un castigo.” 


“Si no te muerdes las uñas, te 
dejaré salir de tu cuarto.” 


“Si te muerdes las uñas, te doy 
una bofetada.” 


reforzamiento negativo 


castigo 
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O La regla del reforzamiento se contiene en 
las columnas segunda, tercera y quinta. Si la 
respuesta operante se comporta como en la se- 
gunda columna y si es reforzada como en la 
tercera columna, entonces la respuesta operante 
es fortalecida o debilitada como en la quinta 
columna. Con respecto al entrenamiento de es- 
cape, por ejemplo, sí la respuesta se emite y sí 
después se retira el castigo, entonces la respuesta 
operante se fortalece y ocurre más a menudo. 

O La segunda y cuarta columnas predicen 
la quinta columna. En la segunda columna, 
considérese la respuesta emitida como valencia 
positiva (+) y la respuesta no emitida como 
valencia negativa (—). En la cuarta columna, 
considérese el reforzamiento positivo como va- 
lencia positiva (+) y al reforzamiento nega- 
tivo como valencia negativa (—). En la quinta 
columna considérese el fortalecimiento como va- 
lencia positiva (+3) y al debilitamiento como 
valencia negativa (—). Multiplíquense las va- 
lencias de las columnas dos y cuatro, y se obtiene 
la valencia de la columna 5. 

La tabla 5-2 presenta muchas otras propie- 
dades elegantes. Cada procedimiento de entre- 
namiento es el reverso de otro, y estos han sido 
aparejados: el entrenamiento de recompensa 
y el entrenamiento de privación son imágenes 
reflejas y ambos fortalecen la respuesta; el en- 
trenamiento de escape y el entrenamiento de 
evitación son imágenes reflejas y ambos forta- 
lecen la respuesta; el entrenamiento de omisión 
y el entrenamiento de cesación son también 
imágenes reflejas y ambos debilitan la respues- 
ta; el entrenamiento de soltar y el entrenamiento 
de castigo son imágenes reflejas y ambos debi- 
litan la respuesta, Las columnas e hileras de la 
tabla 5-2 están ordenadas y simétricas, una es- 
pecie de tabla de la verdad o tabla periódica 
del condicionamiento operante. 

Las columnas 6 y 7, en la tabla 5-2, darán 
un entendimiento intuitivo de los ocho proce- 
dimientos de entrenamiento, La columna 6 con- 


tiene una afirmación, característica del proce- 
so de entrenamiento, verbalizada tal vez por 
el experimentador a su sujeto. La columna 6 
contiene una afirmación similar, también ca- 
racterística del proceso de entrenamiento, pero 
enmarcada en las contingencias y reforzamien- 
tos de las interacciones sociales humanas, 

Los conductistas contemporáneos, especial- 
mente B, F. Skinner y sus seguidores, encuentran 
odioso el poco objetivo “confort-desconfort” 
(descrito por la Ley del Efecto), y clasifican 
los procedimientos operantes sin recurrir a atri- 
butos subjetivos. Los mismos ocho procedimien- 
tos de entrenamiento han sido generados con 
grandes diferencias en definición y nomencla- 
tura. 

En este análisis estrictamente conductista, se 
define a un reforzador positivo como un estímu- 
lo cuya presentación aumenta la tasa de la 
respuesta operante, y un reforzamiento nega- 
tivo (o estímulos aversivos) se define como un 
estímulo cuya retirada incrementa la tasa de 
la respuesta operante; un reforzador, positivo 
o negativo, siempre aumenta la tasa de la res- 
puesta operante. El castigo es lo opuesto de 
lo antes mencionado y tiene dos definiciones; 
el retiro del reforzamiento positivo, o la pre- 
sentación del reforzamiento negativo, La pala- 
bra recompensa carece de significado y no se 
usa. La clasificación de doble entrada se pre- 
senta en la tabla 5-3. 

La emisión o no emisión de la respuesta ope- 
rante puede ser seguida por cualquiera de las 


TABLA 5-3 
Presentado Retirado 
Reforzamiento Reforzamiento Castigo 
positivo positivo 
Reforzamiento Castigo Reforzamiento 
negativo negativo 
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cuatro condiciones -—reforzamiento positivo, 
castigo mediante el retiro del reforzamiento 
positivo, castigo mediante la presentación del 
reforzamiento negativo, o reforzamiento nega- 
tivo- - de este modo surgen los ocho procedi- 
mientos de entrenamiento, enumerados amplia- 
mente en la tabla 3-2. 

Las descripciones del reforzamiento dadas por 
Skinner (columna 8 en la tabla 5-2) están or- 
denadamente en la columna, pero son conside- 
rablemente diferentes de aquellas definidas por 
la Ley del Efecto; nótese por ejemplo, que el 
entrenamiento de escape es reforzamiento nega- 
tivo de acuerdo a la definición de Skinner pero 
reforzamiento positivo de acuerdo a la Ley del 
Efecto. 

Guatro procedimientos de entrenamiento es- 
tablecen (fortalecen) una respuesta operante 
condicionada —-entrenamiento de recompensa, 
entrenamiento de privación, entrenamiento de 
escape y entrenamiento de evitación. De estos, 
el entrenamiento de recompensa, el entrenamien- 
to de escape y el entrenamiento de evitación han 
sido considerados en el laboratorio y se discuten 
en este fascículo; el entrenamiento de recom- 
pensa es el más importante. 

Cuatro procedimientos de entrenamiento eli- 
minan (debilitan) una respuesta operante con- 
dicionada establecida — entrenamiento de omi- 
sión, entrenamiento de cesación, entrenamiento 
de soltar y entrenamiento de castigo. De éstos, 
sólo el entrenamiento de castigo ha sido con- 
siderado en el laboratorio, y se discute cn este 
fascículo en relación a las respuestas operantes 
condicionadas mediante entrenamiento de re- 
compensa y también bajo entrenamiento de 
evitación.* 


2 La extinción (véase la sección 5.8) no es un pro- 
cedimiento de entrenamiento para debilitar una respuesta 
condicionada operante. La extinción es el cambio con- 
ductual que sigue al retiro del reforzamiento, en pre- 
sencia de estímulos discriminativos. El efecto de la 
extinción es opuesto al efecto del entrenamiento que 
se muestra en la columna 5 en la tabla 5-2. 
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5.5 El MÉTODO EXPERIMENTAL 
EN EL CONDICIONAMIENTO 
OPERANTE 


El punto culminante del condicionamiento 
operante son los aparatos automáticos suma- 
mente ingeniosos, 


TÉCNICAS BÁSICAS 


Se emplea un aparato inventado por B. F. 
Skinner, al que se le llama la caja de Skinner. 


ESTIMULO 
DISCRIMINATIVO 
OPERANDUM => 
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CHAROLA DE LA COMIDA 


FIGURA 5-20. la paloma, encarcelada en una coja de 
Skinner (o entrenador de laboratorio) aprende a picar el 
operandum para obtener comida (una respuesta operanie 
cordicionada); pica sólo cuando se lo señala el estímulo 
discriminativo. Para las palomas, el operandum y el es- 
tímulo discriminativo generalmente se combinan en un solo 
disco circular. 
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Las cajas de Skinner se usan con todos los ani- 
males de laboratorio —ncluyendo a las palomas 
y a las ratas (véase la figura 5-2a). 

Una caja típica, diseñada para la presenta- 
ción de una recompensa, tiene scis componen- 
tes: 1) un estímulo discriminativo -—como un 
tono o una luz o algún aspecto visual de la caja 
misma, que es percibido por el animal; 2) un 
operandum* —-herramienta para ser manipu- 
lada por el animal— como un disco circular 
que sirve de blanco a los picotazos de la paloma 
o la palanca que la rata presiona; 3) una cá- 
mara que contiene el estímulo discriminativo, 
el operandum y el animal; 4) un administrador 
de recompensa —un mecanismo que almacena 
y dispensa la recompensa como bolitas de ali- 
mento o sorbos de agua-— después de que el 
animal maniobra el operandum; 5) un registro 
que suma y registra gráficamente las respues- 
tas del animal registradas por el operandum; 
6) un control electrónico del programa de pre- 
sentación de los estímulos discriminativos y de 
aquellas contingencias en las que los reforza- 
dores siguen a las respuestas. 

He aquí una detallada discusión de los seis 
elementos de la caja de Skinner: 

Ll] Los estímulos discriminativos presentan 
las ocasiones para el posible reforzamiento de las 
respuestas operantes. Los estímulos discrimina- 
tivos definen dos procedimientos de condiciona- 
miento: el de respuesta discreta (ensayo por 
ensayo) y el de respuesta libre, El de respuesta 
discreta progresa por ensayos individuales se- 
parados con un nuevo estímulo discriminativo 
“alertador”. Por ejemplo, para una paloma el 
primer ensayo comienza con una luz y si pica 
en los primeros treinta segundos después de que 
se ha encendido la luz, recibe la recompensa; 
sigue un periodo de “descanso” en el cual no 
se refuerza a la paloma por picar y entonces 
prosigue el segundo ensayo. El de respuesta li- 


3 Se prefiere la palabra operandum, algunas veces 
llamada manipulandum. 


bre progresa ininterrumpidamente con el ope- 
randum mismo como el estímulo discriminativo. 
Por ejemplo, para una paloma, la sesión em- 
pieza con el disco disponible, y si pica, recibe 
la recompensa, y está en libertad de picar de 
nuevo inmediatamente; no ocurren periodos 
de “descanso” - la velocidad y el número de 
picitazos sólo tienen como límite la capacidad 
del animal, 

O El operandum está ligado, por supuesto, 
a la respuesta operante escogida por el expe- 
rimentador para ser condicionada. La respuesta 
operante debe ser “limpia” (ejecutada del todo 
o nada), debe ocurrir con poca frecuencia an- 
tes del condicionamiento (para ser reforzada 
específicamente), y debe ocurrir frecuentemente 
después del condicionamiento (para confirmar 
el proceso de condicionamiento). Las seleccio- 
nes más comunes son el picoteo de la paloma 
en el disco y la presión de la rata sobre la barra. 
La paloma (véase la figura 5-2a) con el cuello 
estirado pica la pared del operandum casi una 
vez por hora antes del condicionamiento y quizá 
15 veces por segundo después del condiciona- 
miento; la rata, parada en sus patas traceras, 
aprieta la palanca cerca de cinco veces por 
hora antes del condicionamiento y quizá cinco 
veces por segundo después del condicionamiento. 

[] La cámara iluminada y ventilada, se fa- 
brica a menudo con una de esas cajas que sir- 
ven para llevar la comida en los días de campo. 
La abertura por la que se presenta la recompensa 
debe estar físicamente cerca del operandum. 
Los sonidos extraños y los clics de los controles 
electrónicos, que turban al animal, por lo ge- 
neral se enmascaran mediante un ruido azaroso 
artificialmente sostenido. 
El dispensador de comida que arroja el 
importantísimo estímulo reforzante, debe fun- 
cionar de manera rápida y precisa, enseguida 
de la respuesta operante. 

O Para la respuesta discreta, el registrador 
puede ser un simple reloj que toma el tiempo 
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REGISTRO 
ACUMULADO 


TIEMPO 


300 respuestas 


10 minutos 
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Pendiente -2- Tasa de respuestas (R) por segundo 
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5 he REFORZAMIENTO 


TIEMPO 


del intervalo desde el principio del ensayo hasta 
la respuesta operante, (véase el experimento de 
Thorndike en la sección 5.2). 

O Para la respuesta libre, el registrador auto- 
máticamente grafica un registro acumulado de 
las respuestas operantes durante el experimento 


Cuando y = O la pendiente = O, y el Registro 


acumulado es plano 


YN CURVA TIPICA DE ADQUISICION 
GRAFICADA COMO CURVA DE APRENDIZAJE 


5 10 15 20 


NUMERO DE RESPUESTAS 


FIGURA 5-2b. El condicionamiento óperante se estudia 
mediante registros acumulados de respuestas. A la izquierda, 
las cuatro primeros ilustraciones muestran el movimiento 
hacia arriba de la pluma registradora en cada respuesta. 
El quinto trazo ilustra el regreso de la pluma después de 
haber agotado el ancho del papel. El último trazo ilustra 
las pequeñas marcos que corresponden a los respuestas 
que fueron reforzadas. Arriba, el primer dibujo muestra las 
relaciones entre la pendiente y la tasa de emisión de la 
respuesta; las pendientes más empinados reflejan tasas 
de respuestas más aceleradas. Los dos últimos dibujos mues- 
tran conversiones de registros acumulativos « curvas de 
aprendizaje estándar. 


completo. La figura 5-2b presenta un diagrama 
de un registrador continuamente alimentado de 
papel y con diversos trazos representativos, La 
pluma del registrador normalmente dibuja una 
línea horizontal. Cuando el animal emite una 
respuesta operante, la pluma se mueve una uni- 
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dad hacia arriba, y de nuevo sigue dibujando 
la línca horizontal, La pendiente promedio de 
este trazo (la tangente de su ángulo con la 
abscisa) es una medida de la tasa de la res- 
puesta operante — el número de respuestas ope- 
rantes por unidad de tiempo (por minuto o 
por segundo). La verificación es intuitiva; ima- 
gínese a un animal respondiendo rápidamente 
y nótese que la línea trazada es vertical, e ima- 
gínese un animal que no responde para nada 
y nótese que la línea trazada es horizontal. Las 
líneas más pronunciadas indican tasas de res- 
puesta más rápidas y las líneas aplanadas in- 
dican tasas de respuesta más lentas. Cuando la 
pluma ha registrado un número tal de respues- 
tas que llega hasta la parte más alta o sea el 
filo del papel, retorna rápidamente al filo in- 
ferior haciendo un trazo vertical para empezar 
de nuevo, paso por paso, su ascenso hacia el 
tope. Al final de un experimento, los trazos 
críticos a veces se resumen mediante la unión 
de diferentes segmentos. 

[7 Los trazos de las pendientes son críticos. 
por ello, en los registros acumulados casi siem- 
pre se muestran coordenadas de referencia (la 
coordenada vertical muestra el número de res- 
puestas operantes, y la coordenada horizontal 
muestra las unidades de tiempo) con líneas de 
pendientes representativas (cada una corres- 
pondiendo a una tasa de respuesta). Observe 
los ejemplos en la figura 5-2b donde las pen- 
dientes progresivamente más empinadas repre- 
sentan tasas de respuesta de: una por cada 
cuatro segundos, una por cada dos segundos, 
una por segundo y tres por segundo. La pluma 
registradora a menudo traza la presentación del 
reforzamiento mediante una marquita hacia 
abajo sin producir interferencia con el registro 
acumulado de las respuestas operantes. 

El El control electrónico se programa, con 
sistemas de relevo y mecanismos de tiempo, para 
automatizar el experimento; los operadores hu- 
manos generalmente son impacientes y no pue- 


den ejecutar por sí mismos la presentación de 
los estímulos y reforzadores. Una vez que se le 
ha echado a andar, el control electrónico em- 
pieza el condicionamiento al tiempo predeter- 
minado, presenta los estímulos discriminativos, 
especifica las respuestas operantes que van a ser 
reforzadas, dispara el dispensador de recom- 
pensas, registra las respuestas (durante periodos 
infinitamente largos, día y noche) y finalmente 
detiene el experimento, todo esto sin la atención 
humana. Algunos experimentos duran sólo unas 
pocas horas (y se registran unos cuantos cen- 
tenares de respuestas); otros duran más de un 
mes (y se registran más de un millón de res- 
puestas). 

El proceso de condicionamiento es simple. 
El experimentador, digamos, coloca a una pa- 
loma privada de comida (al 80% de su peso 
normal) o privada de agua (24 horas sin agua) 
en una caja de Skinner, espera por la ocurrencia 
casual de la respuesta operante, recompensa a 
la paloma cuando la respuesta ocurre, y regis- 
tra la tasa de emisión de la respuesta que cada 
vez va incrementando; invariablemente, bajo 
estas condiciones, dado tiempo suficiente, el ani- 
mal debe aprender. Sin embargo el procedi- 
miento es laborioso, porque los animales no 
siempre ejecutan pronto la respuesta operante, 
pueden no asociar la respuesta con el reforza- 
miento y pueden ponerse “emocionales” debido 
al nuevo ambiente en que se encuentran. Cuan- 
do el investigador está interesado en una res- 
puesta operante ya establecida, puede acelerar 
el proceso de condicionamiento por los procedi- 
mientos de “moldeamiento” que se enumeran 
en la sección 5.6. 

Algunas cajas de Skinner están diseñadas para 
retirar el castigo. Una caja típica es equiva- 
lente a las ya descritas, pero la respuesta del 
animal termina el castigo —por lo general un 
toque eléctrico. Por ejemplo, se coloca a la rata 
sobre barras horizontales cargadas de electri- 
cidad con patrones de polaridad siempre cam- 
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biantes, de suerte que el animal no puede 
escapar del toque colocándose en barras adya- 
centes de igual polaridad. El toque debe ser 
precedido por un estímulo discriminativo, El 
toque puede ocurrir periódica o aperiódicamen- 
te. En cualquier caso el toque cesa tan pronto 
como la rata presiona la palanca. 
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FIGURA 5-3. Casi todos los animales pueden 
mediante el condicionamiento operante y la adquisición es 
sumamente parecida a diferentes niveles de la escala filo- 
genética. Con estos aparatos .se han registrado la adqui- 
sición en perros y peces. El perro, ante la señal de la luz 


o del timbre, pisa el pedal para obtener la comida (no 
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De nuevo, bajo estas condiciones y si se cuenta 
con el tiempo suficiente, el animal aprenderá 
pronto. 


TÉCNICAS MODIFICADAS 


Estos métodos básicos han alentado a los 
psicofisiólogos a desarrollar aparatos (algunos 


QUIMOGRAFO 


se muestra la cubierta de la comida). El pez, cuando se lo 
señala la luz, empuja el blanco pora obtener comida. 
Las respuestas se registron en tambores circulares. Los di- 
bujos se basan en experimentos llevados a cabo en la 
U.R.S.S, 
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de los cuales se muestran en la figura 5-3) para 
la investigación de las variedades de respues- 
tas operantes condicionadas en animales de casi 
toda la escala filogenética.* 

4 Un estudio de B. Gelber que reporta el condicio- 
namiento operante en paramecias unicelulares mediante 


entrenamiento de recompensa, ha sido objetado por 
varios psicólogos y está muy controvertido. 


Algunas de las técnicas modificadas emplean 
aparatos similares a las cajas de Skinner, pre- 
viamente discutidas, pero se adaptan a la res- 
puesta operante y al tamaño del animal. Estos 
son ejemplos: 

Ol Ratas mantenidas en la obscuridad han 
aprendido a presionar palancas para obtener 


FIGURA 5-4. Tanto los niños como los adultos aprenden 
fácilmente con el condicionamiento operante. El bebé ha 
aprendido a apretar el balón para ver diseños de colores 
como reforzamiento, al bebé se le observa por televisión. 
El niño de la izquierda ha aprendido a prosionar la barra 
en presencia de un triángulo, como estímulo discriminativo, 
pura obtener monedas de diez centavos como reforzamien- 
to. La niña ha aprendido a girar el botón en presencia 
de la luz, como estímulo discriminativo, para escuchar 
hablar a los muñecos como reforzamiento. 
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cinco segundos de luz; ratas congeladas, para 
obtener diez segundos de calor; ratas sujetas a 
ruidos muy fuertes para obtener diez segundos 
de silencio, y ratas sujetas a super-iluminación 
para obtener cinco segundos de eliminación de 
focos de 250 watts. Conejillos de indias bien 
alimentados y con agua suficiente han apren- 
dido a presionar palancas para obtener refor- 
zamientos de jugo de zanahoria. Algunas ratas 
han aprendido a presionar palancas para que 
se les inyecte morfina y de esta manera ami- 
norar la dependencia fisiológica. Algunos pe- 
rros han aprendido a presionar palancas con 
la nariz, operandums de gran tamaño, para 
obtener reforzamientos de comida especial de 
perros y algunos caballos han aprendido a apre- 
tar palancas para obtener media tasa de un 
grano especial. Algunos monos han aprendido 
a apretar palancas para obtener reforzamientos 
en forma de posibilidad de explorar; después 
de cada presión de la palanca, el mono observa 
a otros monos de su colonia durante diez se- 
gundos. Los chimpancés también aprendieron 
a presionar palancas para obtener fichas como 
las del póker que después cambian por alimento. 

U Planarias saturadas de luz han aprendido 
a suspenderse sobre una celda fotoeléctrica para 
suspender, durante cinco segundos, la luz de 
un foco de 100 watts. 

1] Algunos gatos han aprendido a ponerse 
en contacto con bastones de madera para ob- 
tener, como reforzamiento, caricias en la cabeza; 
después de cada contacto con el bastón, el expe- 
rimentador acaricia la cabeza del gato por 
aproximadamente cinco segundos. 

O Algunas ratas han aprendido a acumular 
un tiempo de cinco minutos corriendo en una 
rueda de actividad para obtener reforzamiento 
en forma de pelotitas de comida, 

Ol Algunos pollos han aprendido a gorjear 
para obtener reforzamientos alimenticios; cada 
sonido era detectado por un micrófono y el 
reforzamiento consistía en granos de maíz. Pá- 


jaros Minah han aprendido a decir “Hola” y 
“¿Qué hubo?” y algunos delfines (mamíferos 
que viven en el mar) han aprendido a decir 
“uno, dos, tres”. 

Algunas técnicas modificadas emplean meca- 
nismos de restricción, como los que se ilustran 
en estos ejemplos: 

O Algunas palomas, a las que se les ha puesto 
un arnés, han aprendido a picar ciertos blancos 
para terminar toques eléctricos que se les ad- 
ministran mediante electrodos implantados di- 
rectamente sobre la piel del pájaro. 

O Algunos monos, en arneses para prima- 
tes, han aprendido a activar contactos de luz 
para obtener reforzamientos de plátano, o para 
terminar toques que se les administran a través 
de electrodos en el arnés. 

Las técnicas modificadas que siguen han sido 
diseñadas para usarse bajo el agua y se ilustran 
con estos ejemplos: 

Ll] Ciertas especies de peces y tiburones, han 
aprendido a golpear, con el hocico, blancos su- 
mergidos, para obtener reforzamientos alimen- 
ticios. 

LU Los pulpos han aprendido golpear, con 
sus tentáculos, blancos sumergidos para obtener 
pescado como reforzamiento, 

Los psicólogos también han desarollado apa- 
ratos (algunos como los que se muestran en la 
figura 5-4) para la investigación de ciertas va- 
riedades de respuestas operantes en niños y adul- 
tos humanos, 

Algunas técnicas modificadas emplean cuar- 
tos hechos al tamaño de los niños o de los adultos 
que semejan cajas de Skinner. He aquí algunos 
ejemplos: 

[] Algunos bebés han aprendido a apretar 
botones para obtener reforzamientos de cam- 
panitas. 

[] Niños de edad pre-escolar han aprendido 
a presionar claves de telégrafo para obtener ju- 
guetitos de plástico en miniatura; niños de es- 
cuela primaria, para obtener reforzamiento de 
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centavos; y alumnos de secundaria y prepara- 
toria, para obtener reforzamientos de quintos. 
Los adultos han aprendido a manejar máquinas 
de juego como las que hay en Las Vegas, que 
tienen una palanca que se jala para obtener re- 
forzamiento en forma de veintes. En cada uno 
de estos casos, las recompensas se dispensaban 
automáticamente después de cada respuesta ope- 
rante y el registro acumulado se trazaba auto- 
máticamente, tal como en las cajas de Skinner 
más pequeñas para palomas y ratas. 

(O Los niños han aprendido a cooperar para 
obtener reforzamiento en la forma de frijolitos 
de dulce. Dos niños, cada uno con un punzón, 
se sientan a lados opuestos de una mesa, sepa- 
rados por una pantalla que tiene una ventana. 
Cuando sólo uno de los niños coloca su punzón 
en un agujero que hay sobre la mesa, y de esta 
manera completa un circuito eléctrico, no se da 
reforzamiento. Cuando, sin embargo, ambos ni- 
ños emitían esta respuesta simultáneamente, se 
les daba automáticamente un frijolito de dulce. 
Diez parejas aprendieron a cooperar en unos 
cuantos minutos. Los miembros de ocho de las 
parejas estuvieron de acuerdo casi inmediata- 
mente de que los frijolitos de dulce deberían 
ser compartidos. Uno de los miembros de las 
dos parejas restantes se comía los frijolitos de 
dulce consistentemente durante los primeros en- 
sayos, pero entonces el otro miembro se rehusa- 
ba a cooperar; de ahí en adelante, la distribu- 
ción de los dulces fue equitativa, 

EJ] Tartamudos adultos aprendieron a hablar 
con fluidez teniendo como reforzamiento la 
oportunidad de hacer cesar un ruido de 105 db 
(escapando del ruido cuando dejaba de tarta- 
mudear), y adultos con fluidez verbal han 
aprendido a tartamudear teniendo como refor- 
zamiento la cesación de un choque (escapaban 
del choque cuando empezaban a tartamudear). 

O Idiotas (apenas capaces de hablar) de 
todas las edades, con G.I, menor <a 30, han 
aprendido a presionar palancas para obtener 


como reforzamiento dulcecitos. Los idiotas se 
comían los dulces o los atesoraban para cam- 
biarlos luego con otros individuos anormales. 
El condicionamiento operante ocurría rápida- 
mente. Este es un hallazgo importante de la 
reciente investigación contemporánea de psico- 
logía, porque los idiotas y los imbéciles, que al- 
guna vez se pensó eran casi imposible de entre- 
nar, ahora aprenden rápidamente cuando se les 
enseña mediante procedimientos de condiciona- 
miento operante. 

Otras técnicas modificadas emplean situacio- 
nes experimentales, semiformales o informales, 
he aquí algunos ejemplos: 

O Infantes de tres meses de edad han apren- 
dido a vocalizar con reforzamientos en forma 
de compleja aprobación social. Cuando el niño 
gritaba, el experimentador presentaba al mismo 
tiempo una amplia sonrisa diciendo “ts, ts” y 
acariciaba el abdomen del bebé. 

O Los adultos aprenden diversas variedades 
de respuestas motoras y verbales para obtener 
muchos reforzamientos verbales. En un experi- 
mento típico, el sujeto seguía estas instruccio- 
ncs: “Estamos haciendo un estudio sobre el 
lenguaje y sobre como la gente usa las palabras. 
Su tarea será muy simple. Queremos que usted 
diga palabras, cualquier tipo de palabras, pero 
deben ser palabras. Ni frases ni números. Diga 
todas las palabras que usted pueda hasta que 
yo le indique que pare;” cuando el sujeto voca- 
lizaba palabras que pertenecían a personas como 
“madre”, “hermano”, “arquitecto”, “vecino”, 
el cxperimentador decía “¡Bien!” o “¡Eso está 
muy bien!”. La frecuencia de palabras referi- 
das a “personas” aumentaba notablemente. A 
menudo no se daban instrucciones formales y 
el psicólogo reforzaba la respuesta operante tal 
como ocurría por casualidad, La literatura in- 
dica que los adultos humanos, han aprendido 
a decir palabras plurales, empezar oraciones 
con “yo o nosotros”, a empezar ciertas afirma- 
ciones con “yo creo”, a aceptar o rechazar ac- 


Adquisición de la respuesta condicionada bajo un entrenamiento de recompensa 27 


titudes controversiales como aquellas que se re- 
fieren a la pena capital, o frotarse la nariz, o 
golpearse los tobillos y juntar las manos. El 
experimentador reforzaba la respuesta diciendo 
“¡Ajá!”, “ya veo” y “¡hum hum!” o moviendo 
la cabeza o sonriendo, Este condicionamiento 
operante de respuestas verbales y motoras tiene 
éxito solamente cuando el experimentador tiene 
cierto estatus social relativamente más alto que 
el sujeto.* 


5.6 ADQUISICIÓN DE LA RESPUESTA 
CONDICIONADA BAJO UN 
ENTRENAMIENTO DE RECOMPENSA 


Esta respuesta condicionada se logra hacien- 
do que el reforzamiento siga a la ejecución de 
la respuesta operante; el animal aprende la 
respuesta operante para obtener el estímulo de- 
seado. El entrenamiento de recompensa es un 
entrenamiento basado en la compensación. 

5 No hay evidencia de que el sujeto aprenda sin 


darse cuenta, Él sabe que se le está reforzando y deli- 
beradamente repite la respuesta. 


FIGURA 5-5. 
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EXTINCION DE LA OPERANTE CONDICIONADA 
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MOLDEAMIENTO 


Los primeros intentos de B. F. Skinner con 
el condicionamiento operante fueron necesaria- 
mente restringidos a respuestas que normalmente 
eran emitidas a una alta frecuencia, como el 
picotear un disco en el caso de la paloma y el 
presionar una palanca en las ratas. Más tarde 
condicionó, con éxito, varias respuestas operan- 
tes que normalmente eran emitidas con frecuen- 
cia moderada. Enseñó a una rata, ahora fa- 
mosa, a jalar canicas de un cesto y llevarlas a 
lo largo de la jaula, para depositarlas en un 
tubo vertical de dos pulgadas de alto. Una se- 
rie de fotografías en una revista demostró dra- 
máticamente la fuerza del condicionamiento 
operante y Skinner logró tempranera fama. El 
procedimiento del condicionamiento operante 
requirió de una paciencia y habilidad casi ili- 
mitadas, aun cuando los instrumentos electro- 
mecánicos de Skinner reforzaron a la rata por 
jalar las canicas, por recogerlas, y por ejecutar 
cada uno de los restantes elementos conductua- 
les de la secuencia. Sin embargo, un gran nú- 
mero de respuestas operantes estaba más allá 


TIEMPO 


Registro acumulado idealizado de la adquisición-extinción de una operante condicionada. 
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del alcance del condicionamiento operante y 
nunca fueron emitidas y, por supuesto, nunca 
fueron provocadas. 

Después Skinner y sus colegas descubrieron 
el moldeamiento, un método que capacita al 
psicólogo para condicionar rápidamente cual- 
quier respuesta potencialmente emitida; Skinner 
escribió: “Keller Breland, Norman Guttman y 
yo estábamos trabajando en un proyecto du- 
rante la guerra, patrocinado por la General 
Mills. Nuestro laboratorio estaba en el último 
piso de un molino de harina en Minneapolis. 
Las palomas aleteaban cerca de las ventanas 
donde podían cazarse fácilmente, y se con- 
virtieron en una fuente interminable de sujetos 
de experimento... Construimos un instrumento 
magnético que cuando el pichón lo picoteaba, 
administraba granos, acompañado de un clic 
audible. También construimos una escala para 
medir la fuerza del picotazo, y al reforzar los 
picotazos más fuertes, los pichones picaron cada 
vez con más violencia hasta que sus picos lle- 
garon a inflamarse... “Puvimos nuestros mo- 
mentos más alegres; decidimos enseñar a los 
pichones a jugar al boliche. El pichón tenía 
que pegarle fuerte con el pico a una pelota de 
madera y mandarla por un canal en minia- 
tura hacia unos pinos de juguete. Pusimos la 
pelota en el canal y esperamos preparados para 
hacer funcionar el depósito de comida cuando 
se presentara el primer tiro... ¡Nada sucedió! 
Simplemente no ocurrió la respuesta y nos can- 
samos de esperar. Decidimos reforzar cualquier 
respuesta que se asemejara ligeramente a la 
acción de tirar, quizá, al principio, simplemente 
la conducta de mirar la pelota y después selec- 
cionar conductas más cercanas a la forma final 
deseada. Los resultados nos maravillaron. En 
unos cuantos minutos, la bola estaba rodando 
por el canal como si la paloma siempre hubiese 
sido una campeona de boliche. El espectáculo 
impresionó de tal manera a Keller Breland que 
abandonó una prometedora carrera en la psico- 


logía académica para entrar al campo de la 
producción comercial de la conducta. (Véase 
más adelante).” 

Son cuatro las razones que explican la efec- 
tividad sobresaliente y sorprendente del moldea- 
miento: 1) el clic del administrador de comida, 
que no estaba presente en los experimentos an- 
teriores, fue un reforzador condicionado, una 
señal invariable de que venía el reforzamiento. 
El reforzador condicionado fue casi simultáneo 
a la respuesta operante; el intervalo entre el re- 
forzamiento efectivo y la respuesta operante era 
mánimo. La investigación ha demostrado que un 
retraso de un duodécimo de segundo es suficiente 
para reforzar la respuesta “equivocada”. 2) El 
reforzador condicionado marcaba la presencia 
de un reforzamiento efectivo independiente- 
mente de la topografía del animal (posición 
física con respecto al reforzador). Sin los refor- 
zadores condicionados el animal, que no siem- 
pre puede estar observando el administrador 
de comida, no siempre “sabe” cuando ha ocu- 
rrido el reforzamiento. 3) Las respuestas epe- 
rantes fueron reforzadas directamente por el 
experimentador y no por un equipo electro- 
mecánico; los aparatos automáticos no podían 
detectar las respuestas operantes pequeñas, 4) Se 
reforzaron respuestas operantes parecidas que 
tuvieran unos cuantos elementos de la respuesta 
final deseada. Así el condicionamiento operante 
se llevó a cabo, por aproximaciones sucesivas, 
eliminando el requisito de que el animal emi- 
tiera “de un solo golpe” la respuesta total. 

El descubrimiento del moldeamiento substi- 
tuyó al intuitivo arte de entrenar animales, por 
el método científico, y B. F. Skinner escribió 
para el público lego uno de sus artículos más 
famosos: “Cómo enseñar a los animales”. Pri- 
mero, dice Skinner, consígase un animal, un 
perro, un gato, una rata, una paloma o co- 
nejo (antes de hacerlo con bebés practique con 
otros animales). Skinner recomendaba un pe- 
rro. Compre una chicharra o timbre y esta- 


blezca el chasquido de la chicharra como el 
estímulo condicionado. La mejor hora es un 
poco antes de la hora a la que come el perro. 
Suene la chicharra al mismo tiempo que le da 
unos pedacitos de carne; déle pedazos pequeños 
de manera que unos 50 pedazos no afecten la 
motivación del perro. Repita esto a intervalos 
de más o menos un minuto, mantenga al perro 
a distancia y suene la chicharra sólo cuando esté 
viendo hacia otro lado o esté haciendo otra 
cosa - nunca cuando esté pidiendo comida. 
En poco tiempo el perro vendrá, en cuanto 
oiga la chicharra para que se le dé comida. 
Ahora usted está listo para moldear la con- 
ducta de su perro como un niño moldea la 
plastilina. 

Al principio enséñele al perro respuestas re- 
lativamente simples —-+tocar con la nariz la 
manija de una alacena. Su única comunicación 
es a través de la chicharra. No debe hablarle 
ni tocarlo. Recuerde que debe sonar la chicharra 
inmediatamente después de la respuesta que está 
enseñando. Cualquier retraso hace que el ani- 
mal aprenda otra respuesta. Primero refuerce 
cualquier movimiento sonando la chicharra y 
dándole un pedazo de carne. El animal tratará 
de repetir la respuesta reforzada. Después, en 
este orden, refuerce cuando el animal se dirija 
hacia la alacena, movimientos de la cabeza acer- 
cándola a la manija. Pronto tocará la manija 
con la nariz y si usted suena la chicharra en ese 


Dibujo de Hediger 


Con permiso de V, C. Wynne-Edwards 


FIGURA 5-6. El moldeamiento, la técnica de entrenamiento 
de animales por aproximaciones sucesivas, permite el entrena- 
miento de respuestas que difícilmente serían emitidas, para 
producir conductas poco probables. B. F. Skinner descubrió 
la técnica de moldeamiento y seleccionó como una de las 
conductas menos probables el que la paloma jugara ping- 
pong; la fotografía muestra el éxito fabuloso de Skinner. El 
moldeamiento se usa en la producción comercial de conduc- 
ta animal; el gato “Tiger Tom'” aprendió e tocar en el piano 
“Happy Birthday”. En las páginas 8 y 9 se muestran otros 
ejemplos de conducta muy poco probable. 
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momento y le da unos pedazos de carne, el 
perro repetirá esa respuesta indefinidamente. 
Independientemente de qué tan inteligente sea 
el perro que trata de enseñar, el proceso com- 
pleto del condicionamiento debe durar menos 
de cinco minutos. 

Con una paloma enjaulada se pueden inten- 
tar dos tareas complejas; manténgase alejado 
al animal, obsérvelo desde un nivel inferior a 
la altura de los ojos de la paloma, y establezca 
como reforzador condicionado el zumbido de 
la chicharra al mismo tiempo que le da granos 
de maíz a través de un hoyo en la pared de 
la jaula. Primero enséñela a distinguir los pa- 
los de los naipes. Cuelgue cuatro cartas dentro 
de la jaula en la parte superior; espada, cora- 
zón, diamante y basto. Moldée la conducta del 
animal para que picotée, digamos el diamante; 
si pica cualquier otra carta suspenda la luz 
(blackout) de la jaula durante 30 segundos 
(esto último podría eliminarse pero el proceso 
de condicionamiento tardaría más). Asegúre- 
se de variar las cartas y sus posiciones; refuerce, 
y elimine la luz en el momento adecuado y 
pronto la paloma escogerá invariablemente el 
diamante. Si usa cuatro señales — PERMITI- 
DO PICAR, NO PIQUE AQUÍ, NO SE 
PERMITE PICAR, PROHIBIDO PICAR- - 
y moldea la respuesta solo para la señal per- 
misiva, la paloma aparentemente poseerá la 
habilidad de leer. Skinner entrenó a una pa- 
loma para que al presentarle cuatro luces de 
colores y cuatro letreros —ROJO, AMARI- 
LLO, VERDE, AZUL—, el animal picará 
siempre el letrero “correcto”. Segundo, ensé- 
ñele a tocar un piano de juguete. Moldée la 
respuesta de picar varias notas en secuencia 
y cuando no lo haga suspenda la luz (black- 
out). Skinner también pudo enseñar a una pa- 
loma a tocar en el xilófono “Take Me Out to 
the Ball Game”. 

La Compañía de Conducta Animal (Animal 
Behavior Enterprises), fundada por Marian 


Breland y el ya fallecido Keller Breland, es 
un negocio floreciente cuyo producto es el mol- 
deamiento de respuestas operantes condiciona- 
das en animales (véanse las ilustraciones de las 
páginas 8 y 9 y la figura 5-6). Esta organización 
ha condicionado y vendido más de 6,000 ani- 
males de 38 especies para exhihiciones en ferias 
de agricultura, circos, comerciales de televisión, 
películas, museos de historia natural, zoológi- 
cos municipales y para su propio y espectacu- 
lar zoológico “1.Q.”, Hot Springs, Route 6, en 
Arkansas, Algunas de las gallinas de la com- 
pañía de Breland juegan beisbol con muñecos 
mecanizados. Cuando se lanza la pelota, la ga- 
llina jala con fuerza el disparador de un bat 
que funciona automáticamente. Si la pelota es 
bateada fuera de la cerca, se ponen unos gra- 
nos de maíz en la primera base y la gallina 
corre en busca de los granos, Si la bola es in- 
terceptada por un jugador de campo o se sale 
de foul, la gallina regresa a home, visiblemente 
molesta, porque ella ha aprendido que tiene 
que tratar otra vez. Otras de las gallinas de la 
Compañía de Brcland, bailan tap con zapatos 
y traje apropiados, depositan huevos de made- 
ra en canastos (una persona del público cuenta 
el número de huevos); seleccionan la mejor 
de dos manos de póquer; disparan pistolas de 
agua; tocan tambores y caminan sobre la cuer- 
da floja. Uno de los puercos de Breland pren- 
de el radio, desayuna en la mesa, deposita 
sus ropas en el cesto de la ropa sucia, maneja 
la aspiradora, y contesta preguntas del pú- 
blico, encendiendo letreros que dicen SÍ o NO. 
Los conejos de Breland juegan basquetbol y 
se besan unos a otros. Los hamsters hacen un 
número en el trapecio y los gansos bailan rit- 
mos modernos. Otros inverosímiles sujetos in- 
cluyen renos, cacatúas, mapaches, delfines y 
ballenas. Estos métodos prometen hacer más 
útiles a los animales de granja, reemplazar el 
método tradicional de entrenar animales de 
circo, aumentar las habilidades de los anima- 
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les caseros y mascotas de cacería y mecanizar 
la educación de los perros para ciegos.” 

El proceso de moldeamiento ha demostrado 
también que las respuestas operantes condicio- 
nadas pueden ser estímulos sociales para las 
respuestas de otros animales. B. F. Skinner 
confirmó dramáticamente este principio, en- 
trenó dos palomas a jugar ping-pong compe- 
titivamente (como se muestra en la figura 5-6) 
y a apretar botones en forma cooperativa. En 
el ping-pong, una paloma de un lado de una 
mesa en miniatura golpea fuertemente con el 
pico enviando la pelota al otro lado de la mesa 
desde donde la devuelve otra paloma; algunas 
veces llegan a intercambiar hasta seis tiros an- 
tes de que alguna de ellas pierda un tanto. 
Cuando se trata de apretar botones, una pa- 
loma “líder” en un compartimento de cristal 
picó tres diferentes botones al azar, al mismo 
tiempo que en un compartimento contiguo, 
una paloma “seguidora” picó los botones co- 
rrespondientes; una de las palomas parecía ser 
el reflejo de la otra. Las palomas competían 
en el ping-pong porque se les reforzó cuando 
emitían respuestas hostiles hacia su oponente, 
pero cooperaban al aprentar botones, porque 
cada una de ellas fue reforzada cuando emitía 
respuestas amigables para con su aliada. Este 
experimento demostró las relaciones sociales 
sintéticas —un mecanismo para la adquisición 
de conductas cooperativas o competitivas en di- 
versas culturas humanas (véase el cuaderno 
Temas de psicología núm. 4). 

En la práctica, los psicólogos generalmente 
no esperan que el animal emita la respuesta 

6 Los Breland han reportado varios fracasos no- 
tables del condicionamiento operante. El animal gra- 
dualmente substituye los patrones condicionados por 
patrones de conducta instintiva. Por ejemplo, un ma- 
pache, condicionado a echar quintos en una alcancía, 
gradualmente empezó a frotar las monedas y final- 
mente se negó a echarlas, El mapache mostró la con- 
ducta instintiva de “lavar los alimentos o las cosas” 
que le permite sacar a los langostinos de sus conchas. 


Los Breland se refieren a este fenómeno como “con- 
ducta equivocada” o “mala conducta”. 


deseada, sino que, haciendo funcionar manual- 
mente el administrador de comida, van mol- 
deando cada una de las respuestas. Con las 
palomas se utilizan dos técnicas adicionales. 
El proceso de desvanecimiento en el que la pa- 
loma kambrienta se coloca en una caja de 
Skinner; en el disco (operandum), se coloca 
un grano de maíz pegado con cinta scotch. La 
paloma inmediatamente picará el grano, y así 
golpea el disco que activa el administrador de 
comida el cual soltará otro grano de maíz en 
el comedero. Después el experimentador redu- 
cirá gradualmente el tamaño de la cinta scotch 
que cubre el grano de maíz pegado al disco, 
hasta que se desvanezca, mientras que la tasa 
de picoteo de la paloma se incrementa rápida- 
mente. El método de substitución requiere que 
se permita a la paloma hambrienta, dentro de 
su caja-habitación, picar sobre una cajita llena 
de granos de maíz, la caja de 2 cm de diá- 
metro cubierta con cartoncillo de color y tex- 
tura parecida a los del disco, Este cartoncillo 
tiene agujeros para que la paloma pueda ver 
los granos que están dentro. Cuando se la co- 
loca en la caja de Skinner, la paloma inmedia- 
tamente pica en el disco, Se refuerza el picoteo 
y esta respuesta de picar el disco aumenta rá- 
pidamente. 


PROGRAMAS DE REFORZAMIENTO 


Una respuesta operante condicionada esta- 
blecida no necesita mantenerse con reforza- 
miento continuo, en el que se refuerza cada 
una de las respuestas operantes; sino mas bien 
con el programa más interesante de reforza- 
miento intermitente (algunas veces llamado, re- 
forzamiento parcial) donde solo se refuerzan 
respuestas operantes escogidas. 

Los programas de reforzamiento intermitente 
dependen ya sea de: 1) el número de respues- 
tas precedentes o 2) la longitud del intervalo 
de tiempo precedente. Si el reforzamiento de- 
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pende del número de respuestas que ha dado 
el animal desde que recibió su último refor- 
zamiento —sin importar cuanto se tarde en ha- 
cerlo-- se está bajo un programa de razón, 
porque el número de respuestas reforzadas 
siempre es una proporción del número de res- 
puestas no reforzadas, (por ejemplo, en una 
razón de tres, se refuerza cada tercera respues- 
ta), Si el reforzamiento depende del intervalo 
de tiempo desde la última vez que se reforzó 
— independientemente del número de respues- 
tas-- se está siguiendo un programa de inter- 
valo, porque siempre hay un intervalo entre 
reforzamientos. Los programas de razón se re- 
gulan con un contador y en los programas de 
intervalo con un reloj. 

Los programas de razón y de intervalo, a su 
vez, se subdividen en programas fijos, cuando 
el número de respuestas o el intervalo es siem- 
pre el mismo, y programas variables, cuando el 
número de respuestas o el intervalo se dejan 
al zar y son diferentes. 

En seguida se describen los cuatro progra- 
mas de reforzamiento intermitente (vea sus re- 
presentaciones correspondientes, en forma de 
líneas superpuestas sobre un registro acumu- 
lado, en la figura 5-7. 

1. En un programa de razón fija (RY), las 
respuestas operantes son reforzadas periódica- 
mente; por ejemplo, en un RF 5 se refuerzan 
las respuestas 5a. 10a, 15a. etcétera, y en un 
RF 20 se refuerzan las respuestas 20%, 40%, 60%, 
etc. El reforzamiento continuo RF 1 es un caso 
especial, El programa de razón fija puede re- 
presentarse en un registro acumulado por lí- 
neas horizontales paralelas equidistantes, siendo 
la distancia entre las líneas igual al número 
FIGURA 5-7. El reforzamiento intermitente tiene cuatro 
programas básicos. Cada uno se representa por líneas 
imaginarias sobre el registro acumulado, que se muestran 
en la primera columna; cuando el trozo cruza la línea, el 


animal es reforzado. Los programas tienen trazos raracte- 
rísticos que se muestran en la segunda y tercera columnas. 


de respuestas entre reforzamientos —tal como 
son trazadas por la pluma registradora— así las 
líneas paralelas están separadas cinco unida- 
des en el RF 5 (cada unidad es igual a la 
distancia vertical recorrida por la pluma des- 
pués de cada respuesta operante), por 20 uni- 
dades en el RF 20, y por una unidad en el 
RF 1. Cuando el registro de una respuesta 
intersecta una línea horizontal, indica que esa 
respuesta es reforzada. 

2. En el programa de intervalo fijo (1E), 
se refuerzan las respuestas operantes en inter- 
valos de tiempo periódicos y regulares; por 
ejemplo, en el 1F 1, se refuerza la primera 
respuesta después del primero, segundo, tercer 
minuto, etc.; en el caso del 1F 3 se refuerza la 
primera respuesta después del minuto tres, y 
así sucesivamente. Los programas de intervalo 
fijo se pueden representar en un registro acumu- 
lado por líncas verticales paralelas equidistan- 
tes, la distancia entre las líneas es igual al 
intervalo de tiempo entre reforzamientos; así 
las líneas paralelas están separadas por una 
unidad en el IF 1 (cada unidad igual a un 
minuto), y en el IF 3 por tres unidades. Cuan- 
do el registro de una respuesta intersecta una 
línea vertical, indica que dicha respuesta es 
reforzada. 

3. En el programa de razón variable (RV), 
se refuerzan las respuestas operantes en perío- 
dos irregulares; por ejemplo, en un programa 
de reforzamiento RV 5 se refuerzan las res- 
puestas, 2%, 9%, 17%, 18*, 26*, etc. (donde, en 
promedio, sería reforzada cada quinta respues- 
ta), o en un programa de reforzamiento RV 
2, se podrían reforzar la 2*, 4%, 5%, 9*%, 11%, etc, 
(donde, en promedio, sería reforzada cada se- 
gunda respuesta). El programa.de reforzamiento 
de razón variable puede representarse en un 
registro acumulado por líneas horizontales pa- 
ralelas no equidistantes, la distancia entre las 
líneas depende del número de respuestas; 
así, en el primer ejemplo, la primera línea 
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estaría a dos unidades y las siguientes a 7, 8, 
1, 8, etc., y en el segundo ejemplo, la primera 
línea estaría a dos unidades, las siguientes a 
2, 1, 4, 2, etc. Cuando el registro de una res- 
puesta intersecta alguna de las líneas horizon- 
tales, indica que dicha respuesta es reforzada. 

4. En un programa de intervalo variable 
(IV), se refuerza la respuesta operante a inter- 
valos de tiempo irregulares; por ejemplo, en 
un programa de reforzamiento 1V 2, se podría 
reforzar la primera respuesta después del pri- 
mer minuto, del segundo, cuarto, sexto, nove- 
no, etc. (donde, en promedio, se refuerza una 
respuesta cada dos minutos) o en un programa 
de reforzamiento de IV 4, se refuerza la pri- 
mera respuesta después del tercero, sexto, oc- 
tavo, quinceavo, dieciceisavo minuto, etc., (don- 
de, en promedio, sc refuerza una respuesta cada 
cuatro minutos). El programa de reforzamien- 
to de intervalo variable puede representarse 
en un registro acumulado por líneas verticales 
paralelas no equidistantes; la distancia entre las 
líneas está dada por el tiempo entre reforza- 
mientos; así, en el primer ejemplo de arriba, 
la primera línea estaría a 1 minuto, y las si- 
guientes a intervalos de 1, 2, 2, 3, minutos y 
las siguientes a 3, 2, 7, y 1 minutos. Cuando el 
registro de una respuesta intersecta alguna de 
las líneas verticales, indica que dicha respuesta 
es reforzada, 

Aquí tenemos algunas características impor- 
tantes de los cuatro programas básicos de refor- 
zamiento intermitente. 

LU Los programas cortos de reforzamiento 
intermitente pueden ser programados inmedia- 
tamente después de que la respuesta operante 
condicionada ha sido moldeada (véase arriba) ; 
por ejemplo, un animal continuará emitiendo 
aunque no de la misma manera, o a la 
misma tasa-— una respuesta operante condi- 
cionada establecida cuando el reforzamiento 


continuo sea substituido por un programa RF 
40, RV 50, IV 9, o IF 10, 


O Los programas largos de reforzamiento 
intermitente deben programarse gradualmente. 
Si se utilizaron programas demasiado largos 
directamente después del moldeamiento, uno de 
RF 900 (o uno RV 360, IT 134, o uno IV 40), 
el procedimiento extinguiría la respuesta con- 
dicionada operante puesto que deberían ocu- 
rrir 899 respuestas sin reforzamiento. Sin em- 
bargo, un programa de razón fija 900 podrá 
lograrse, programando primero un RF 40, des- 
pués un RF 65, un RF 75, RF 90, después 
un RF 125 y así sucesivamente, hasta alcan- 
zar un RF 900, 

Ol El registro acumulado de cada uno de 
los programas de reforzamiento intermitente es 
único en su género, y en la figura 5-7 se mues- 
tran las curvas representativas, 

L] El registro acumulado de un programa 
de razón fija, muestra una pausa (indicada por 
un casi aplanamiento del registro acumulado) 
después de cada reforzamiento. La pausa es 
corta (a veces imperceptible) para programas 
de razón corta y más larga para programas de 
razón larga. La tasa de respuesta inmediata- 
mente después de la pausa es abrupta (indi- 
cado por la casi perpendicularidad del trazo) 
dando al registro la apariencia general de “es- 
calones”. 

O El registro acumulado bajo un programa 
de intervalo fijo exhibe una pausa sostenida y 
prolongada después de cada reforzamiento. La 
pausa es corta para intervalos cortos y más 
larga para intervalos largos. La tasa de res- 
puesta después de la pausa se recupera gra- 
dualmente, acelerándose positivamente hasta que 
alcanza su alta tasa de respuesta final previa 
al próximo reforzamiento, dando al registro, 
una apariencia general “festoneada”. 

O El registro acumulado bajo programas 
de razón variable es regularmente acelerado, 
con una pendiente casi constante. Las pausas no 
guardan relación con los reforzamientos, ocu- 
rren al azar; cortas bajo programas de razón 
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corta y más largas bajo programas de ra- 
zón larga. 

O El registro acumulado bajo programas 
de reforzamiento intermitente variable es regu- 
larmente acelerado. No se manifiestan pausas 
consistentes ni importantes. 

O Las pausas que siguen al reforzamiento 
en los programas de razón fija y de intervalo 
fijo, se presentan, por supuesto, porque el ani- 
mal ha aprendido que las respuestas que si- 
guen inmediatamente después de un reforza- 
miento nunca son reforzadas. La pausa en los 
programas de razón variable se presenta por- 
que de vez en cuando ocurren un gran nú- 
mero de respuestas sin que sean reforzadas: 
esto es más probable en programas de razones 
muy largas. En los programas de intervalo va- 
riable no se presentan pausas porque las res- 
puestas no-reforzadas no siguen ningún patrón. 

O Las tasas de respuesta bajo programas 
de reforzamiento intermitente, generalmente son 
mucho más altas que las tasas de respuesta 
bajo reforzamiento continuo. Esta paradoja es 
uno de los descubrimientos profundos de la 
psicología moderna, es aparentemente extraño 
que los animales emitan más respuestas por 
menos reforzamiento (“pican más y disfrutan 
menos”). Los teóricos del aprendizaje explican 
este fenómeno haciendo notar que en el re- 
forzamiento continuo solo se refuerza la res- 
puesta, mientras que en el reforzamiento in- 
termitente se refuerza la respuesta y la tasa de 
respuesta; bajo el programa de reforzamiento 
intermitente el animal tiene que emitir más 
respuestas por cada reforzamiento, y por eso 
emite más rápido las respuestas para obtener el 
mismo número de reforzamientos. 

[] La tasa de respuesta total depende del 
tamaño de la razón o de la amplitud del in- 
tervalo. En general las tasas de respuesta más 
altas se presentan bajo programas de reforza- 
miento de razones más grandes e intervalos más 
largos; la excepción es en el caso del programa 


de intervalo variable, donde ocurre todo lo con- 
trario. 

O Las tasas de respuesta son marcadamente 
diferentes para cada uno de los cuatro tipos 
de programas de reforzamiento intermitente. 
Las tasas de respuesta más altas ocurren bajo 
programas de razón variable (aproximadamen- 
te de tres a siete por segundo), le siguen las 
de razón fija (de tres a cuatro por segundo), 
después las de intervalo variable (aproxima- 
damente de una a tres por segundo), después 
las de intervalo fijo (de .5 a una por segundo 
aproximadamentc). La tasa de respuesta má- 
xima bajo un programa de razón variable es 
más rápida que la descarga de balas de una 
ametralladora; en realidad, la cantidad de ener- 
gía total que gasta la paloma, es mayor que 
la energía que le proporciona la comida del 
reforzamiento - y el animal continuamente pier- 
de peso. 

O Bajo programas de reforzamiento de in- 
tervalo variable y razón variable las tasas de 
respuesta total se mantienen durante periodos 
excepcionalmente largos, Por ejemplo, la li- 
leratura reporta palomas que emiten 87 000 
respuestas durante 14 horas diarias, durante 
10 días bajo un programa de reforzamiento 
IV 6. 


Frecuentemente los seres humanos son refor- 
zados informalmente bajo programas de refor- 
zamiento intermitente y muestran conductas 
que pueden compararse a las de animales in- 
feriores bajo el mismo tipo de programas. Los 
obreros de una fábrica que trabajan a destajo 
—les pagan $20.00 por cada cinco piezas de 
ropa que terminan-- generalmente hacen una 
breve pausa después de cada reforzamiento eco- 
nómico, antes de recuperar su alta tasa de res- 
puesta. Los apostadores de Las Vegas bajo un 
programa de razón variable “un golpe de suerte 
de vez en cuando” —ganando en el momento 
menos esperado— generan tasas de respuesta 
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sumamente altas aún durante períodos de pér- 
dida constante (algunos jugadores patológicos, 
juegan en tres máquinas simultáneamente). Los 
pacientes de un hospital a los que se les ad- 
ministraba morfina cada 5 horas si ellos así 
lo solicitaban —-un programa de intervalo fijo 
“espera-y-pide”— después del reforzamiento 
dejaban de molestar a la enfermera por un tiem- 
po, para volver a pedir con mayor frecuencia 
conforme se acerca el final del período de 5 
horas. Estudiantes a los que se les den las cali- 
ficaciones de varias materias por medio de un 
boletín de la oficina central que sale irregular- 
mente por culpa de los maestros —lo que cons- 
tituye un programa de intervalo variable “es- 
pera-sin-saber-cuando”—- constantemente van a 
la oficina, algunas veces durante la noche, sin 
pausas significativas, 


Un animal puede sostener una respuesta ope- 
rante condicionada bajo un programa múltiple 
que consta de varios programas con diferentes 
estímulos discriminativos. Así, C. B. Ferster y 
B. F. Skinner entrenaron una paloma a picar 
bajo un programa IF 6 cuando el disco trans- 
parente se tornaba rojo, bajo un programa RF 
60 cuando el disco estaba en verde, y bajo un 
IV 6 con el disco amarillo, Un cambio en el 
estímulo discriminativo era acompañado inme- 
diatamente por un cambio en la ejecución de 
la paloma. Cuando el estímulo era rojo el regis- 
tro mostraba el clásico aspecto “festoneado” 
de los programas de intervalo fijo; cuando el 
estímulo era verde, el registro mostraba altas 
tasas de respuesta que son características del 
programa de razón fija; cuando el estímulo 
visual era amarillo, el registro mostraba la tasa 
de respuesta lenta, constante característica del 
programa de intervalo variable. Estos experi- 
mentadores lograron, en otros experimentos, 
que una paloma emitiera nueye ejecuciones di- 
ferentes, bajo nueve programas diferentes, con 
discos de nueve colores, 


Bajo un programa concurrente se pueden 
mantener diferencialmente dos respuestas ope- 
rantes condicionadas similares pero separadas. 
C. B, Ferster condicionó un chimpancé a ma- 
nejar dos interruptores, uno con cada mano. 
Las respuestas de la mano derecha se refor- 
zaron bajo un programa de razón fija (RF 
210), y las respuestas de la mano izquierda 
bajo un programa de intervalo variable (1V 5). 
El registro de la mano derecha tuvo pausas 
cortas después del reforzamiento, característi- 
cas del programa de razón fija; y el registro 
de la mano izquierda mostraba la respuesta 
estable sin pausas, distintiva del programa de 
intervalo variable; mostrando así una notable 
independencia entre dos sistemas de respuesta, 

La literatura proporciona muchas variaciones 
y combinaciones de los programas de reforza- 
miento fundamentales de razón-fija, de intervalo- 
fijo, razón-variable, e intervalo-variable. C. B. 
Ferster y B, F. Skinner, por ejemplo, diseña- 
ron una variación del programa de intervalo 
variable, donde el picoteo de la paloma era 
reforzado si no había picado durante los tres 
minutos previos. La tasa de respuesta caracte- 
rística de picoteo lento y estable en un registro 
típico indica una paloma “temerosa” de picar 
demasiado pronto. 

Sin embargo, esta ejecución fue imherente- 
mente inestable porque la tasa de respuesta de 
la paloma se incrementaba conforme aumenta- 
ba la motivación de hambre y decrecía confor- 
me disminuía la motivación de hambre. Cuando 
el pájaro recibió reforzamiento infrecuentemen- 
te y por lo tanto perdió peso, estaba más ham- 
briento y respondió más rápidamente, y la 
pausa necesaria de tres minutos antes del re- 
forzamiento llegó a ser menos probable. Este 
ciclo se perpetúa a sí mismo, porque tasas de 
respuesta más rápidas condujeron a menos re- 
compensas, a tasas de respuestas aún más rá- 
pidas, y finalmente a la inanición. Por otra 
parte, cuando el pájaro recibió reforzamiento 
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frecuentemente y de este modo aumentaba de 
peso, estaba menos hambriento y respondió más 
lentamente, y la pausa necesaria de tres mi- 
nutos antes del reforzamiento llegó a ser más 
probable. Este ciclo también se perpertúa a 
sí mismo porque tasas de respuesta más lentas 
condujeron a más recompensas, a tasas de res- 
puesta aún más lentas, y finalmente a la sa- 
ciedad. La inestabilidad de la ejecución se 
corrigió mediante un mecanismo de retroali- 
mentación reduciendo el tiempo necesario de 
la pausa cuando la tasa de reforzamiento ten- 
día a reducir el peso del animal, e incremen- 
tando la pausa necesaria cuando la tasa de 
reforzamiento tendía a incrementar el peso del 
animal. Mediante un ajuste automático e in- 
interrumpido del intervalo, estos investigadores 
forzaron a la paloma a responder continua- 
mente 1500 horas —o 24 horas al día, siete 
días a la semana, durante casi dos meses; apa- 
rentemente el animal no dormía, 

Una amplia variedad de especies despliega 
conductas sorprendentemente similares bajo 
programas de reforzamiento intermitente. En 
sus publicaciones, Skinner muestra los registros 
acumulados con el característico aspecto “festo- 
neado” de los programas de razón-fija, de una 
paloma, de una rata y un mono (no necesaria- 
mente en este orden). Skinner reta al lector a 
que los identifique. Las curvas son esencialmente 
intercambiables a pesar de las diferencias con- 
ductuales de las especies, así como a diferencias 
anatómicas. 


EL PROCESO DE ADQUISICIÓN 


Estos son los descubrimientos importantes re- 
lacionados a la adquisición bajo entrenamiento 
de recompensa: 

CU] La tasa del condicionamiento operante 
depende de la motivación del animal. B, F. 
Skinner puso cuatro grupos de ratas igualmen- 
te hambrientas a comer diferentes cantidades 


de comida: 0, 2, 4, y 6 grs, y después colocó 
cada una de las ratas en una caja de Skinner; 
las ratas más hambrientas presionaron la barra 
más rápido para obtener el reforzamiento de 
comida. 

(Y La tasa del condicionamiento operante 
depende de la cantidad de recompensa. En un 
experimento típico, J. P. Hutt reforzó el que 
las ratas presionaran la barra, con tres diferen- 
tes cantidades de una mezcla de harina y leche 

-3 mg, 12 mg, y 50 mg. Las ratas presionaron 
la barra más rápidamente para obtener los re- 
forzadores de comida más grandes. 

O La tasa del condicionamiento operante 
depende de lo “placentero o displacentero” de 
la recompensa. En un experimento típico, P. 
J. Hutt reforzó, el que las ratas presionaran 
la barra, con una mezcla de leche y harina de 
tres sabores —-dulce con sacarina, neutra y agria 
con ácido cítrico. Las ratas presionaron la ba- 
rra más rápidamente en el reforzamiento de. 
comida “placentero” (o apetitoso). 

O La tasa de adquisición de una operante 
condicionada, por el procedimiento discreto de 
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FIGURA 5-8a. Los intervalos más largos entre ensayos fa- 
ciliton la adquisición de respuestas operantes condicionadas. 
Las ratas responden mós rápido (tienen latencias más cor- 
tas) en cada uno de los ensoyos; cuando descansan más 
tiempo entre ensayos. Estos datos son de los experimentos 
de W. H. Teichner. 
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ensayo-y-error (véase la sección 3.5), depende 
de la amplitud del intervalo entre ensayos. 
W. H., Teichner, usando una luz como un es- 
tímulo discriminativo, midió el retraso en la 
respuesta de presionar la barra en una caja de 
Skinner, como se describe en la figura 5-84, 
ensayos masivos con solo 30 seg de intervalo 
produjeron un condicionamiento inferior (más 
lento) que ensayos espaciados con intervalos 
de 90 seg. 

O La velocidad de adquisición de una opce- 
rante condicionada depende del intervalo entre 
la ejecución de la respuesta y la presentación 
del reforzamiento. CG. T. Perin demostró el 
principio, mediante un procedimiento discreto, 
con una caja de Skinner de retraso variable; 
la respuesta de la rata de presionar la barra 
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FIGURA 5-8b. Retrasos más cortos del reforzamiento faci- 
litan la adquisición de respuestas operantes condicionadas. 
las ratas responden más rápido (tienen latencias más c<or- 
tas y aprenden más rápido) con intervalos más cortos entre 
la respuesta y la recompensa. Cuando el retraso es exce- 
sivamente largo, el animal no aprende. Estos datos son 
de los experimentos de C. T. Perin. 


fue seguida por una pausa -—entre O y 30 seg - 
antes de que se dispensara la recompensa. La 
figura 5-8b describe la adquisición como una 
función del retraso; la adquisición más rápida 
fue con el retraso de O, y tan lenta con el re- 
traso de 30 seg que la rata no adquirió la res- 
puesta condicionada. Por tanto, el condiciona- 
miento eficiente requiere de retrasos cortos. 

L] Generalmente, las respuestas operantes 
son reforzadas con reforzadores incondiciona- 
dos o primarios durante el condicionamiento 
operante, pero, después de un procedimiento ex- 
perimental apropiado, también pueden ser re- 
forzadas por reforzadores condicionados O se- 
cundarios. Un reforzador incondicionado, como 
la comida o el agua, posee propiedades refor- 
zantes inherentes; un reforzador condicionado 
adquiere sus propiedades reforzantes mediante 
su presentación inmediatamente antes del re- 
forzador incondicionado. Una vez que se ha 
creado un reforzador condicionado, este puede 
mantener una respuesta operante condicionada 
previamente aprendida, o puede establecer nue- 
vas respuestas operantes condicionadas. 

El reforzamiento condicionado ha sido de- 
mostrado usualmente con una paloma ham- 
brienta en una caja de Skinner. Cuando la 
paloma picaba el disco (operandum) escuchaba 
el clic del comedero y consumía la comida que 
había en él. Después de varios aparejamientos 
del clic y la comida, el clic adquirió las pro- 
piedades reforzantes de la comida y la substi- 
tuyó. Se eliminó la presentación del comedero 
de manera que continuara haciendo el clic pero 
dejara de dispensar comida. La paloma picoteó 
por el solo clic, respondió bastante más que 
otras palomas que picaban sin sonido que ha- 
bían sido entrenadas sin el clic. El clic condi- 
cionado puede reforzar otras respuestas ope- 
rantes; por ejemplo, la paloma aprenderá a 
brincar por el reforzamiento del clic..Por su- 
puesto, la base de la efectividad del sonido del 
timbre, en la técnica de entrenamiento de ani- 
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males de B. F. Skinner, fue el reforzador con- 
dicionado (véase la sección 5.6). 

R. T. Kelleher ha estudiado las relaciones 
entre reforzadores condicionados e incondiciona- 
dos, con dos chimpancés hambrientos de siete 
años de edad (una continuación del experi- 
mento “chimpancés y fichas” descrito en el 
cuaderno Temas de psicología núm. 3). Los 
animales fueron entrenados dos veces en una 
caja de Skinner modificada. Primero, bajo 
una luz roja, se les enseñó a insertar una ficha 
de póker en la ranura de una máquina ven- 
dedora para recibir automáticamente reforza- 
miento de comida. Después, bajo una luz blan- 
ca, se les enseñó a empujar una perilla para 
obtener fichas de póker como reforzamiento; 
“uando estaba la luz roja, no se les daba fichas 
de póker ni se intercambiaban las fichas cuando 
estaba la luz blanca. Nótese la analogía con 
nuestro sistema monetario; las fichas de póker 
eran el reforzador secundario, que podía ser 
“anjeado en el momento adecuado por refor- 
zadores primarios, exactamente como nuestras 
monedas son reforzadores secundarios que pue- 
den ser canjeados en el momento adecuado, por 
zeforzadores primarios. 

Los registros acumulados de los chimpancés 
bajo un programa de reforzamiento de razón- 
lija corta, con reforzadores de fichas de póker 
Jue casi idéntico, a sus registros correspondien- 
ses con reforzadores de bolitas de comida; por 
“iemplo un RF 20 (20 respuestas reforzadas 

on una ficha), cada chimpancé emitió 960 res- 
puestas en 6 minutos bajo la luz blanca para 
zoder intercambiar después 60 fichas por co- 
mida (bajo la luz roja). Sin embargo, los re- 
zistros de los chimpancés bajo programas de 
zazónfija larga, digamos un RF 125, fueron 

inolares porque los monos hacían una pausa 
asi interminable al principio de la sesión y 
lespués respondían abruptamente a tasas altas 

estables. Kelleher reportó: “La observación 
formal indicó que los” chimpancés se queda- 


ban inactivos hasta que adquirían cierto núme- 
ro de fichas de póquer. Después, repentinamente 
empezaban a responder, al mismo tiempo que 
gritaban y aullaban como usualmente lo hacen 
durante la alimentación diaria... Los chim- 
pancés parccían disfrutar manipulando las fi- 
chas de póker. Frecuentemente los chimpancés 
se metían algunas fichas a la boca y las rechi- 
naban contra los dientes”, Cuando Kelleher les 
daba 50 fichas como una “dotación inicial”, 
los chimpancés, inmediatamente empezaban a 
responder a altas tasas. Los monos apretaban 
la perilla para obtener una ficha que podía ser 
canjeada por comida solamente cuando esta- 
ban hambrientos. 

Experimentos más elaborados con chimpan- 
cés establecieron fichas de póker como reforza- 
dores condicionados generalizados. En estos, las 
mismas fichas de póker podían ser cambiadas 
por incentivos como la comida, el agua, una 
pareja y escapar del dolor. Raro, pero el refor- 
zador generalizado fue relativamente indepen- 
diente del desequilibrio homeostático de los 
chimpancés (tales como hambre o sed), y 
los chimpancés trabajaban y ahorraban las fi- 
chas que no necesitaban. Esta conducta es sor- 
prendentemente similar a la conducta de la ma- 
yoría de los hombres que acumulan y ahorran 
dinero que no necesitan de inmediato y, en 
muchos casos, que nunca necesitan. Sin embar- 
go, algunos investigadores han sido incapaces 
de confirmar estas propiedades de los reforza- 
dores condicionados generalizados, 

O Una variación del procedimiento del con- 
dicionamiento operante ha demostrado que res- 
puestas operantes espontáneas, no planeadas, 
frecuentemente han llegado a ser condiciona- 
das fortuitamente. Dado que el experimenta- 
dor no seleccionó la respuesta que va a ser 
reforzada, el animal parece empeñado en una 
conducta ritual continua, perseverativa, e irra- 
cional, denominada superslición. Skinner refor- 
zó, con comida, a una paloma hambrienta a 
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intervalos sucesivos de 15 segundos. El animal, 
por supuesto, estuvo emitiendo un diluvio de 
respuestas operantes; y el primer reforzamiento, 
necesariamente, siguió a una respuesta — diga- 
mos, girar en dirección opucsta al de las ma- 
necillas del reloj. Puesto que la respuesta fue 
reforzada, aunque accidentalmente, la paloma 
tendió a repctirla. Esto, a su vez, incrementó 
la probabilidad de que la respuesta fuese re- 
forzada nuevamente, y surgió un círculo vicioso 
de respuesta-seguida-por reforzamiento, en fre. 
cuencia cada vez creciente hasta producir una 
completa respuesta operante condicionada no 
planeada y “peculiar”, de giros y movimientos 
en dirección opuesta al de las manecillas del 
reloj. La paloma daba la impresión, superfi- 
cialmente, de que la conducta supersticiosa era 
la causa del reforzamiento, y que si se dete- 
nía la conducta, también se terminaría el refor- 
zamiento. Las supersticiones de las palomas in- 
cluyen meter la cabeza en uno de los rincones 
de la jaula, levantar con la cabeza una barra 
invisible, y movimientos pendulares del tronco. 
La cojera supersticiosa de una paloma se mi- 
dió con un tambor y un registro acumulado; 
el trazo indicó que la adquisición (aunque el 
reforzamiento no fue contingente con la res- 
puesta de la paloma) no se podía diferenciar 
de un condicionamiento planeado. Conductas 
humanas supersticiosas, similares a las mencio- 
nadas anteriormente, son muy comunes. Por 
ejemplo, algunos jugadores de beisbol, frecuen- 
temente ejecutan ceremonias singulares con 
la cachucha antes de tomar la posición de 
bateo; algunos jugadores, al tirar los dados, 
gritan “¡vamos ahí!”; algunos jugadores de 
boliche giran un sin número de veces mientras 
la bola viaja a través de la mesa, y algunos 
jugadores de golf jalan sus ropas en forma cs- 
pecial antes de tirar un “putt” (tiro cerca 
del hoyo); todas estas son respuestas que pre- 
viamente han sido seguidas por un reforza- 
miento accidental, y por lo tanto, tienden a 


repetirse una y otra vez aunque solo son refor- 
zadas de vez en cuando. 

O Otra variación del procedimiento del con- 
dicionamiento operante ha demostrado que es- 
tímulos fortuitos pueden acelerar (o retardar) 
la tasa de respuestas operantes condicionadas 
estables. El animal parece involucrarse en una 
conducta pronosticadora, denominada premo- 
nición” B. F, Skinner y W. H. Morse presen- 
taron un estímulo de luz azul, en forma aza- 
rosa, a una paloma; la cual ya estaba bajo un 
programa de reforzamiento de intervalo-varia- 
ble (IV 30). La luz azul apareció, digamos, 
antes de que la respuesta de picar fuese se- 
guida por un reforzamiento, y la paloma tendió 
a picar después de cada una de las veces que 
se prendió el estímulo de luz azul. Esto, a su 
vez, incrementó la probabilidad de que el picar 
con la luz azul fuese nuevamente reforzada, 
formándose así un círculo vicioso de respuesta- 
seguida-por reforzamiento, acelerando el regis- 
tro acumulado. La conducta humana premo- 
nitoria semejante es común. Por ejemplo, al- 
gunos apostadores aumentan sus apuestas los 
días 7 de cada mes; muchas de las personas 
que invierten en la bolsa de valores aumentan 
sus acciones en los días asoleados; y algunos 
estudiantes se abstienen de tomar decisiones 
los viernes; todas estas son respuestas a estí- 
mulos irrelevantes, seguidos en ocasiones ante- 
riores por reforzamiento y por lo tanto tienden 
a repetirse una y otra vez. 

O Las respuestas operantes condicionadas 
pueden ensamblarse y ejecutarse en secuen- 
cia, un proceso de engranaje llamado enca- 
denamiento. Como en los desfiles de elefan- 
tes, la “cola” de cada operante se conecta con 
la “trompa” de la operante que le precede. La 
cadena se forma de atrás hacia adelante. Se 
aprende primero el eslabón final (respuesta), 
después el eslabón antertor, luego el eslabón 


7 Skinner denominó esta conducta como superstición 
tipo dos, 
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que precede a este último; los eslabones están 
conectados por un estímulo común, el cual, 
es al mismo tiempo estímulo discriminativo del 
eslabón siguiente y estímulo reforzador secun- 
dario del eslabón anterior, 

W. J. Arnold ha dado una demostración 
espectacular del encadenamiento con una super 
caja de Skinner. Primero se condicionó a una 
rata a presionar un operandum de barra baja 
para obtener reforzamiento de comida, La ba- 
rra baja era un estímulo discriminativo “na- 
tural” a diferencia del estímulo discriminativo 
artificial, como el timbre. Después se substituyó 
el operandum de barra baja por un operan- 
dum de barra alta. La rata, como es usual, 
empezó a actuar en forma azarosa y eventual- 
mente empujó la barra alta, Inmediatamente 
la barra alta fue substituida por la barra baja, 
y la rata presionó la barra baja para recibir 
reforzamiento de comida, La barra baja, el es- 
tímulo discriminativo de la última respuesta 
operante, llegó a ser el reforzamiento secun- 
dario de la penúltima respuesta operante, pre- 
sionar la barra alta. Siguiendo procedimientos 
similares, Arnold agregó una tercera respuesta 
operante, empujar una barra vertical y una 
cuarta respuesta, jalar un cordón. Después de 
que todas estas respuestas habían sido encade- 
nadas, la rata jalaba el cordón para que saliera 
la barra vertical, presionaba la barra vertical 
para que saliera la barra alta, presionaba la 
barra alta para que saliera la barra baja, pre- 
sionaba la barra baja para recibir reforzamiento 
de comida. Por supuesto, el encadenamiento es 
importante en la vida diaria, dado que casi 
todas las respuestas operantes son secuenciales; 
por ejemplo, usted camina hacia su coche, busca 
en su bolsillo, saca una llave, la introduce en 
la cerradura, abre la portezuela, y continúa 
suave y automáticamente. 

U] El condicionamiento operante inconscien- 
te, involuntario de los humanos, es controver- 
sial. Experimentos previos (véase el cuaderno 


Temas de psicología núm. 9), indicaron que 
la conducta verbal de los sujetos podía ser 
controlada en forma dramática, sin que el su- 
jeto se dicra cuenta. Por ejemplo, cuando el 
sujeto decía una oración que empezaba con 
“YO” o “Nosotros” se le reforzaba con una 
verbalización como “Bien”; los sujetos usaron 
con más frecuencia oraciones que empezaban con 
estos pronombres. Interogatorios subsecuentes 
mostraron que aparentemente el sujeto condi- 
cionado era totalmente ignorante de su ejecu- 
ción. Sin embargo, S. M. Levin y otros, más 
tarde contradijeron los hallazgos, afirmando que 
las preguntas que se les hicieron a los sujetos 
en estos experimentos precipitados, eran super- 
ficiales y apresuradas. Cuando a los sujetos 
condicionados se les examinó a profundidad, 
en realidad tenían conocimiento del proceso 
de condicionamiento y de la naturaleza del re- 
forzamiento; los sujetos que no se habían con- 
dicionado, no se habían dado cuenta del condi- 
cionamiento que se intentaba. 


5.7 PROPIEDADES DE LA RESPUESTA 
CONDICIONADA BAJO ENTRENAMIENTO 
DE RECOMPENSA 


La respuesta operante condicionada, una vez 
que ha sido establecida, tiene varias caracte- 
rísticas particulares. 


GENERALIZACIÓN 


Considerando que un estímulo discriminati- 
vo —qQue está presente durante la adquisición 
de una respuesta operante condicionada— por 
lo general también está presente después de 
la adquisición; el animal continúa emitiendo la 
respuesta operante condicionada 2 una tasa 
máxima. Sin embargo, esta situación puede no 
prevalecer. El estímulo discriminativo, después 
de la ádquisición, algunas veces varía del estí- 
mulo discriminativo antes de la adquisición en 
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diferentes grados - -en intensidad, cualidad, o 
atributos similares- - y entonces, el animal emite 
la respuesta condicionada a tasa más baja. 
Cuanto menos semejante sea el nuevo estímulo 
del estímulo anterior, más baja será la tasa 
de la respuesta condicionada; en el caso ex- 
tremo, el estímulo discriminativo nuevo es to- 
talmente diferente y cesa la respuesta, Esta pér- 
dida gradual de la fuerza provocadora de la 
operante, conforme los estímulos discriminati- 
vos nuevos llegan a ser cada vez más diferentes 
del estímulo original, es denominado gradiente 
de generalización de los estímulos (primarios). 

N, Guttman y H. I, Kalish han construido 
gradientes de generalización “natural” para es- 
pectros luminosos mediante un elegante expe- 
rimento con palomas. En una caja de Skinner 
modificada moldearon la conducta de cada una 
de seis palomas para picar un disco ilumi- 
nado a trashluz por una fuente casi monocro- 
mática (“pura”) de 530 my (milimicrones), 
el estímulo discriminativo original. (La luz de 
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FIGURA 5-9a. Las respuestas operantes condicionadas se 
generalizan. N. Gutiman y H. t. Kalish entrenaron palomas 
a picar a una luz casi monocromática, estos gradientes de 
generclización graficados muestran la reducción progresiva 
de la respuesta a luces diferentes. La curva llega a la cima 
en el estimulo de entrenamiento. 


550 mp luce amarillo verde para los huma- 
nos (véase el cuaderno Temas de psicología 
núm. 1), pero no necesariamente para las pa- 
lomas; los hombres y las palomas pueden tener 
diferentes mecanismos de visión de los colo- 
res). Guando la respuesta condicionada estaba 
bien establecida, el programa de reforzamiento 
continuo se cambió por un programa de inter- 
valo variable (IV 1). El animal picó en forma 
estable a una tasa de cerca de 100 respuestas 
por minuto, y habría continuado haciéndolo 
así por varias horas, sin reforzamiento poste- 
rior, con insignificantes declinaciones en la tasa 
(véase la discusión de la extinción en la sec- 
ción 5.8). 

Después, los investigadores muestrearon sis- 
temáticamente la “reserva refleja” * de las pa- 
lomas mediante la iluminación a trasluz de los 
discos con 11 estímulos discriminativos de lu- 
ces casi monocromáticas de 490, 510, 520, 530, 
540, 550, 560, 570, 580, 590 y 610 mu. (Las 
luces de estas longitudes de onda abarcan el 
espectro y representaban diferentes matices para 
los humanos, pero, otra vez, no necesariamente 
para las palomas). Nótese que un estímulo dis- 
criminativo era el original, los diez restantes 
eran nuevos. La diferencia entre el estímulo 
discriminativo original y cada uno de los estí- 
mulos discriminativos nuevos era, por supuesto, 
especificable en longitud de onda; por ejem- 
plo, 550 milimicrones difiere de 490 mu por 
60 my. La figura 5-9a muestra gráficamente 
el número total de respuestas de picoteo, para 
cada estímulo discriminativo, para seis palo- 
mas. El número mayor ocurrió con el estímulo 
original, y cada vez menos para los estímulos 
cuya longitud de onda era cada vez más dife- 
rente de la del estímulo original. Dado que los 
estímulos fueron presentados en orden azaroso, 

8 La reserva refleja fue la única variable interven- 
tora de Skinner, (véase el cuaderno Temas de psicología 
núm. 6) similar a la fuerza del hábito de Hull, y 


significa un “reservorio” de fuerza operante. Skinner 
ha abandonado el término. 
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Guttman reportó efectos sorprendentes. La tasa 
de respuestas de la paloma cambiaba abrupta 
y completamente conforme cambiaban los es- 
tímulos; la paloma parecía “saber” con gran 
precisión la diferencia en milimicrones entre 
cada estímulo discriminativo nuevo y el estí- 
mulo previamente condicionado, y el experimen- 
tador fue capaz de controlar la tasa de res- 
puestas de la paloma tanto como es capaz de 
controlar el chorro de agua de un bebedero. 
La figura 5-9a también muestra gradientes 
primarios de generalización de estímulos simi- 
lares, obtenidos con estímulos discriminativos 
originales de 530, 580 y 600 mp. 

El gradiente de generalización de la paloma 
para longitudes de onda de estímulos visuales 
(el cual exhibe la cima o punto máximo en 
el estímulo discriminativo original) es total- 
mente inesperado y sorprendente para los psi- 
cofisiólogos. Los gradientes de la figura 5-9a 
sugieren firmemente que las palomas, y proba- 
blemente otros pájaros, están equipados con un 
analizador visual de frecuencias, en contraste 
con el sintetizador visual de frecuencias de los 
humanos (véanse los cuadernos Temas de psi- 
cología núms. 1 y 2). Las palomas pueden or- 
denar espectros de longitud de onda, pero usted 
no podría. Por ejemplo, en estímulos de 490 
my, 530 my y 550 mp una paloma “sabe” que 
la distancia entre 490 mpa y 550 mu es ma- 
yor que la distancia entre 530 y 550 mp, puesto 
que picó menos para 490 mu que para 530 mp. 
Usted percibe estos estímulos como violeta, azul 
y amarillo- verde y no puede graduarlos intui- 
tivamente; realmente se ha proporcionado un 
instrumento mnemotécnico para recordar arre- 
glos espectrales de matices (Roy G. Biv, véanse 
los cuadernos Temas de psicología núms. 1 y 
7). El analizador visual de frecuencias de las 
palomas parece ser similar al analizador audi- 
tivo de frecuencias de los humanos; así como 
la paloma sistematiza longitudes de onda de 
luz, un humano reconoce frecuencias de tono 


altas (recíproco de las longitudes de onda) 
como subjetivamente altas y ordena frecuen- 
cias de tono más bajas como subjetivamente 
más bajas. Por lo tanto, probablemente, la 
paloma y el hombre tiene diferentes impre- 
siones cuando ven mezclas de luces como, di- 
gamos, 560 mu y 650 my; el hombre tiene una 
simple, unitaria e inanalizable sensación de ama- 
rillo, mientras que los datos de Guttman y 
Kalish indican que la paloma puede detectar 
los componentes separados a 560 mu y 650 my 
de una manera extraña a nuestro concepto or- 
dinario de sensación visual, pero similar a la 
de la sensación auditiva. Esta conjetura tiene 
una base plausible, puesto que la visión de 
color del hombre y de los pájaros se desarrolló 
separada e independientemente durante la evo- 
lución. 

El gradiente de generalización visual para 
longitudes de onda, con una sola cima o punto 
máximo, innato en la paloma, puede modifi- 
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FIGURA 5-9b. Los gradientes de gencralización pueden ser 
distorcionados mediante entrenamiento de generalización. 
N. Guttman y H. Ll Kalish entrenaron palomas a picar a 
dos luces casi monocromáticas. Graficando estos gradientes 
de generalización se muestran dos cimas [sobre los estimu- 
los condicionados por el entrenamiento) y hay una pro- 
grosiva reducción de la respuesta para luzes diferentes. 
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carse severamente en forma “artificial” entre- 
nando alternadamente dos o más estímulos dis- 
criminativos coloreados en forma diferente. 
B. F. Skinner describió el procedimiento de 
condicionamiento básico. Se entrenó a una pa- 
loma hambrienta a picar en un disco ilumi- 
nado a trasluz, para luz roja o verde, bajo un 
programa de razón fija (RF 25). El disco era 
rojo durante los primeros 25 picotazos (los an- 
teriores al primer reforzamiento), y verde du- 
rante los segundos 25 picotazos (los anteriores 
al segundo reforzamiento), durante los terceros 
25, la luz era nuevamente roja, y en esta for- 
ma continuaba el experimento. En la 24* se- 
sión diaria, la pendiente del registro fue idén- 
tica para ambos colores, indicando su equi- 
valencia como estímulos discriminativos. En un 
experimento similar realizado por H. I. Ka- 
lish y N. Guttman, se entrenó a las palomas, 
bajo un programa de intervalo variable, a res- 
ponder a dos estímulos casi monocromáticos 
de 530 mu y 560 my. Después se les presen- 
taron a las palomas estímulos discriminativos 
nuevos, con longitudes de onda que abarcaban 
el espectro visual, y se graficó un gradiente de 
generalización. En la figura 5-9b se muestra 
el gradiente artificial, alterado, con dos cimas 
—-una para cada uno de los estímulos discri- 
minativos originales. 


DISCRIMINACIÓN 


Ambos gradientes de generalización de los 
estímulos, el natural y el artificial, pueden ser 
anulados mediante un programa de reforza- 
miento apropiado. Mediante entrenamiento, se 
puede hacer que un animal responda con tasas 
elevadas de respuestas a un estímulo, y con tasa 
de cero, a otro estímulo o a estímulos equiva- 
lentes, proceso opuesto al de generalización, 
denominado discriminación. 

Para establecer la discriminación son nece- 
sarios dos estímulos: 1) un estímulo discrimi- 


nativo positivo (EP o E*), que invariablemente 
está presente cuando la respuesta operante es 
reforzada, y 2) un estimulo diferencial negativo 
(ES o Er), que invariablemente está presente 
cuando la respuesta operante no es reforzada. 
Por supuesto,. antes de la discriminación, debe 
haber generalización de un estímulo a otro (de 
otro modo los estímulos ya estarían discrimi- 
nados) ya sea como resultado de un gradiente 
de generalización innato mediante el entrena- 
miento artificial. 

H. M. Hanson describió la discriminación 
entre estímulos, en un gradiente de generali- 
zación normal. Entrenó a sus palomas a picar 
un disco iluminado con luz de longitud de 
onda de 550 mp; debido al gradiente de ge- 
neralización innato, la paloma picaría tam- 
bién a longitudes de onda de 590 mp, aunque 
a tasas de respuestas más bajas. Enseguida el 
investigador presentó en forma azarosa, estí- 
mulos de 550 mu y 390 mu, reforzando siem- 
pre los picotazos a 550 mu (de modo que éste 
llegara a ser el estímulo discriminativo) y no 
reforzando nunca los picotazos a 590 mpu (de 
modo que éste llegara a ser el estímulo dife- 
rencial). Al final, las palomas siempre picaban 
a los 550 my y nunca a los 590 mu; las palomas 
habían aprendido a discriminar entre estímulos 
innatamente generalizados. 

B. F. Skinner dio una demostración similar, 
con un estímulo discriminativo rojo y un estímu- 
lo diferencial verde; los estímulos habían sido 
establecidos artificialmente, mediante entrena- 
mientos, como estímulos discriminativos equi- 
valentes (véase arriba). Se presentaron des- 
pués en forma alternada, el estímulo rojo fue 
presentado con reforzamiento y el estimulo ver- 
de sin reforzar. El registro acumulado para el 
estímulo rojo fue equivalente al trazo obtenido 
previamente con ambos estímulos discrimina- 
tivos. El registro acumulado del estímulo verde 
indicó que el animal respondió a tasas cada 
vez más bajas, hasta que la respuesta cesó por 
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completo, Se había establecido una discrimi- 
nación entre dos estímulos que previamente 
habían sido generalizados en forma artificial. 

H. M. Hanson graficó cuatro gradientes de 
generalización distorcionados mediante entrena- 
miento de discriminación. Utilizó palomas; el 
estímulo positivo siempre fue 550 mu y los es- 
tímulos negativos fueron 535 my, 560 mu, 570 
mp y 590 mp. Una vez que se había estable- 
cido la discriminación (las palomas siempre pi- 
caban en la presencia del estímulo positivo y 
nunca picaban en presencia del estímulo nega- 
tivo), Hanson registró la tasa de picoteo de 
las palomas a muchos otros estímulos cuyas 
longitudes de onda se extendían a lo largo del 
espectro visual. Los resultados se muestran en 
la figura 5-9c. La curva de control es el gra- 


diente de generalización formado después del 
entrenamiento con longitudes de onda de 550 
ma como estímulo discriminativo y, por su- 
puesto, estaba presente antes del entrenamiento 
de discriminación. Las curvas restantes son dis- 
torciones causadas por el proceso de discrimi- 
nación. Las curvas deformadas se desvían del 
estímulo negativo; las palomas picaron más 
rápidamente a estímulos de longitud de onda 
diferente del estímulo discriminativo positivo 
original. Por ejemplo, después de que las pa- 
lomas discriminaron el estímulo positivo de 550 
mp del negativo 570 my, picaron a tasas más 
altas al estímulo prueba de 540 mp que al 
estimulo discriminativo original de 550 mp; 
como se esperaba, el picar al estímulo dife- 
rencial negativo de 570 mp casi no se pre- 
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entrenamiento de discriminación. 
H. M. Hansen entrenó palomas a que siempre picaron a 
una luz casi monocromática (E*] y e na responder nunca 


distorsionarse mediante 


a una de varias luces casi monocromáticas negativas (E-). 
Los gradientes de generalización se desvían de las luces 
negativas. 


46 Propiedades de la respuesta condicionada bajo entrenamiento de recompensa 


sentó. El entrenamiento de discriminación de 
las palomas: 1) extinguió la respuesta para el 
estímulo diferencial negativo, y preservó las 
respuestas para el estímulo discriminativo po- 
sitivo y 2) incrementó tasas máximas de respues- 
tas para un rango nuevo de estímulos diferentes 
del estímulo discriminativo original. 

El fenómeno de la discriminación en el con- 
dicionamiento operante ha permitido a los psi- 
cofisiólogos investigar fácilmente las sensaciones 
de los animales” -—un área de la investiga- 
ción que se había considerado inaccesible puesto 
que los animales no verbalizan sensaciones. De 
este modo, H. M, Hanson, en experimentos 
de discriminación similares a los descritos arri- 
ba, estableció que la “sensación” de la paloma 
provocada por un estímulo de 550 mp es dife- 
rente a la provocada por un estímulo de 551 
mp, las sensaciones correspondientes en el hu- 
mano son equivalentes; Hanson realizó un expe- 
rimento exitoso de discriminación donde el es- 
tímulo discriminativo era 550 mp y el estímulo 
diferencial era de 551 my; el proceso de discri- 
minación tardó varias horas, pero eventual- 
mente el pájaro picó siempre a 550 mp y nunca 
a 351 mu. Gon respecto a discriminación de 
matices, la paloma supuestamente tiene visión 
de color superior al hombre en un punto es- 
pectral, 

D. S. Blough, con sus avanzadas y sofisticadas 
técnicas de entrenamiento de discriminación, ha 
reinagurado una rama de la psicología, la 
psicofísica animal. Blough estaba familiarizado 
con el fenómeno subjetivo de contraste de bri- 
llantez en humanos (un área gris sobre un 
fondo blanco se ve más obscuro, y un área gris 
sobre un fondo negro se ve más claro (véase 


Y Los fenómenos sensoriales en animales habían sido 
investigados, mediante las técnicas de aprendizaje, du- 
rante más de 50 años. Pavlov, por ejemplo, probó la 
audición y visión de los perros usando el reflejo con- 
dicionado clásico. Sin embargo, los métodos del con- 
dicionamiento operante son mecanizados y mucho más 
eficientes, 


el cuaderno Temas de psicología núm. 1), e 
investigó la existencia de efectos similares en 
las palomas. Iluminando a trasluz, con luz blan- 
ca estímulos de diferentes intensidades, dos círcu- 
los uno junto al otro, sobre un fondo gris, en 
una caja de Skinner. Sus palomas aprendieron 
a discriminar entre los dos estímulos, bajo un 
programa de reforzamiento de razón variable, 
y siempre picaron al estímulo más intenso y 
nunca al menos intenso. Blough obtuvo un 
registro continuo de la “opinión” de la paloma 
acerca de la brillantez relativa del disco, el 
cual se muestra en la figura 5-104. Cuando la 
paloma picaba el disco de la izquierda, ese dis- 
co se tornaba un poco más intenso y simul- 
táneamente el disco de la derecha se tornaba 
un poco menos intenso. Después de unos cuan- 
tos picotazos, la paloma cambiaba al disco de 
la derecha, el cual, para entonces, era más in- 
tenso; y el picoteo continuaba hasta que el dis- 
co de la izquierda era más intenso, momento en 
el cual la paloma cambiaba al anterior; los 
cambios se repetían una y otra vez. Los cam- 
bios de disco de la paloma hicieron oscilar la 
pluma del registro (véase la figura 5-10a) al- 
rededor del punto que representaba para la 
paloma la igualdad subjetiva de brillantez (en 
este caso, el punto de intensidades físicas igua- 
les). Después, Blough colocó el disco izquierdo 
en un fondo negro y el disco derecho sobre un 
fondo blanco, si usted hubiese visto los discos, 
el izquierdo parecería más brillante. La palo- 
ma estuvo de acuerdo y así se lo “informó” al 
investigador, picando el disco de la izquierda. 
En poco tiempo el disco de la derecha fue juz- 
gado como más brillante y la paloma hizo el 
cambio. Mediante esta alternación la paloma 
trazaba su punto de igualdad subjetiva (en 
este caso un claro punto de desigualdad de 
intensidades físicas). Cuando se eliminaron am- 
bos fondos, la paloma nuevamente marcó un 
punto de igualdad subjetiva, igual al punto 
de igualdad objetiva. 
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Las técnicas de entrenamiento de discrimi- 
nación de Blough, han sido utilizadas para re- 
gistrar automáticamente muchas funciones psi- 
cofísicas de los animales, incluyendo adaptación 
a la obscuridad y sensibilidad espectral (véase 
el cuaderno Temas de psicología núm. 1). Un 
adaptómetro para pájaros trazó el incremento 
progresivo de la sensibilidad visual de una pa- 
loma a la luz blanca, durante la adaptación 
a la obscuridad. El adaptómetro era una caja 
de Skinner modificada, que tenía en una de 
las paredes un campo de adaptación (que pre- 
sentaba un estimulo visual acromático en un 
amplio rango de intensidades) y dos discos 
(denominados A y B). El aparato registró una 
curva de adaptación a la obscuridad cuando 
el pájaro satisfacia dos contingencias: 1) pi- 
caba al disco Á cuando sentía o percibía luz 
(“grayness” “penumbra”) en el campo de adap- 
tación. 2) picaba al disco B cuando no per- 
cibía o sentía luz (“obscuridad”) en el campo 
de adaptación. 

La paloma aprendió esta discriminación me- 
diante un entrenamiento preliminar, Se puso 
en el campo de adaptación una luz moderada- 
mente intensa; cuando la paloma picaba va- 
rias veces el disco A, el experimentador quitaba 
por completo el estímulo luz con un telón obs- 
curo. Después, cuando el pájaro picaba varias 
veces el disco B, el experimentador reforzaba 
al animal con comida, y dicho de otra ma- 
nera: la paloma picaba el disco Á para apa- 
gar la luz y después picaba el disco B para 
obtener su recompensa. El entrenamiento fue 
bajo un programa de razón variable y la pa- 
loma habría continuado emitiendo estas dos 
respuestas operantes sin recompensa continua. 

En la fase principal del experimento, se adap- 
tó a la paloma a la luz y se colocó en el adap- 
tómetro obscurecido. La paloma picó el disco 
A, indicando que el campo de adaptación era 
visible. El continuo picoteo redujo la intensi- 
dad del campo de adaptación obscuro hasta que 


la paloma ya no lo veía (no porque el expe- 
rimentador haya ocluido cl estímulo, sino por- 
que la intensidad de la luz había caído por 
debajo del umbral visual de la paloma), y 
entonces la paloma picó el disco B (para ob- 
tener alguna recompensa futura). El picar a 
B, por supuesto, aumentaba el nivel de inten- 
sidad hasta que era visible para el pájaro y 
entonces la paloma picaba el disco A. El ciclo 
de cambios del disco Á al disco B y de nuevo 
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FIGURA 5-10b. Las curvas de adaptación a la obscuridad 
de las palomas y de los humanos son similares, aún para 
los segmentos correspondientes a receptores de bastones y 
conos. La curva de la paloma se midió mediante la téc- 
nica de condicionamiento operante. 
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al disco Á, se repitió una y otra vez. Conforme 
la adaptación a la obscuridad progresó, la pa- 
loma marcó su propio umbral de decremento 
visual (véase la figura 5-10) a medida que 
llegaba a ser cada vez más sensible a estímu- 
los visuales más débiles. La curva de registro 
de la paloma es similar a la curva de adapta- 
ción a la obscuridad de los humanos, como se 
muestra en la figura 5-10b. 

La curva de sensibilidad espectral de la pa- 
loma, se obtiene substituyendo en el campo de 
adaptación 15 luces espectrales casi monocro- 
máticas, por una luz blanca. Los 15 trazos de 
adaptación separados se pueden sintetizar en 
una sola curva como se muestra en la figura 
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FIGURA 5-10c. 
bilidades similares para luces monocromáticas de diferentes 
longitudes de onda (matices), pero las palomas tienen ma- 
yor sensibilidad para el ultra-violeta. 


Las palomas y los humanos tienen sensi- 


5-10c, representando la sensibilidad diferencial 
de la paloma a longitudes de onda diferentes. 
La curva de la paloma es similar a la del hom- 
bre, aunque las palomas son más sensibles a 
los violetas y ultra-violetas. Experimentos aná- 
logos, pero no equivalentes, han mostrado que, 
la sensibilidad de un mono cebú es también 
similar a la del hombre, aunque los monos son 
más sensibles al rojo, 


5.8 EXTINCIÓN DE LA RESPUESTA OPERANTE 
CONDICIONADA BAJO ENTRENAMIENTO 
DE RECOMPENSA 


Las respuestas operantes condicionadas pue- 
den sufrir extinción o desaparición; este es el 
proceso de olvido. 


LA NATURALEZA DE LA EXTINCIÓN 


El simple paso del tiempo no causa la ex- 
tinción. B, Y. Skinner describió una demos- 
tración famosa: “Condicioné 20 palomas a 
picotear un patrón visual poco común proyec- 
tado sobre un disco translúcido. Mantuve una 
tasa alta de respuesta, establecida mediante re- 
forzamiento variable. Después dejé las palomas 
-—por seis meses, un año, dos o cuatro años— 
para estudiar su retención de la respuesta; 
esas palomas vivieron en nuestra colonia de 
palomas, donde servían como reproductoras o 
sementales. Para probar el olvido puse a cada 
una de las palomas hambrientas en la caja de 
entrenamiento. Después de que las respuestas 
emocionales de las palomas se habían desva- 
necido, proyecté el patrón visual sobre el disco. 
En dos segundos, cada una de las palomas em- 
pezó a picar el disco a pesar de que algunas de 
ellas no había visto el patrón durante cuatro 
años. Durante la media hora siguiente, muchas 
palomas emitieron más de 700 respuestas”. Se- 
guramente, la extinción no se refiere a la 
declinación pasiva de una respuesta operante 
condicionada. 
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La extinción de una respuesta operante con- 
dicionada ocurre cuando el reforzamiento no 
se presenta después de la respuesta condicio- 
nada en la presencia del estímulo discrimina- 
tivo. La figura 5-11la ilustra los registros acu- 
mulados que describen la extinción progresiva 
de la respuesta de presionar la barra de una 
rata en una caja de Skinner. La rata había 
aprendido a presionar la barra para obtener 
comida, y se le habían reforzado aproximada- 
mente 100 respuestas. Después de esta adqui- 
sición, el administrador de comida fue desco- 
nectado, de manera que al apretar la barra 
no cayera comida, aunque la respuesta era to- 
mada en cuenta en el registro acumulado. 
Después de la primera presión de la barra que 
no fue reforzada, el animal respondió, breve- 
mente, a una tasa muy alta, Después de esto, el 
animal hizo pausas y respondió alternadamente 
—las respuestas siguientes fueron más largas y 
disminuyeron las tasas de respuestas subsecuen- 
tes. Finalmente la respuesta cesó totalmente, y 
la extinción se manifestó por un aplanamien- 
to del registro acumulado. (Obviamente, no 
podría cambiarse una paloma abruptamente 
de un programa de reforzamiento continuo a 
un programa de razón fija de 900; la respuesta 
condicionada se extinguiría antes de que la 
respuesta número 900 fuera reforzada). El nú- 
mero de respuestas emitidas después de que se 
ha descontinuado el reforzamiento varía gran- 
demente y es un indicador de la resistencia a 


la extinción, Si sólo se emiten unas cuantas res- 
puestas, el animal exhibe una baja resistencia 
a la extinción; si el animal emite muchas res- 
puestas, se dice que el animal exhibe alta re- 
sistencia a la extinción. 

Después de un período de calma, una respues- 
ta Operante condicionada que aparentemente 
se había extinguido puede regenerarse auto- 
máticamente, fenómeno denominado recupera- 
ción espontánea. La figura 5-1la muestra un 
registro acumulado que representa la recupe- 
ración espontánea de la respuesta de presionar 
la barra que había sido extinguida como se 
acaba de describir. Al día siguiente de la ex- 
tinción, se colocó nuevamente en la caja de 
Skinner a la misma rata hambrienta con el 
administrador de comida desconectado. El ani- 
mal empezó inmediatamente a presionar la pa- 
lanca en recuperación espontánea. Sin embar- 
go, las respuestas no fueron reforzadas y la 
extinción regresó rápidamente. Con más des- 
canso, la rata exhibió también la recuperación 
espontánea, pero a tasas de respuestas más ba- 
jas. Finalmente, después de prolongados perío- 
dos de descanso entre sesión y sesión y unas 
cuantas tentativas de respuestas abortadas, cesó 
la recuperación espontánea, dejando su lugar a 
una extinción, al parecer, permanente, Por su- 
puesto, una respuesta operante condicionada 
que ha sido extinguida, puede ser recondicio- 
nada, reforzando nuevamente la respuesta ope- 
rante emitida. 


PERIODO DE 48 


FIGURA 5-11. La respuesta operante no reforzada no des- 
aparece repentina y completamente. Este registro acumulado 
muestra la recuperación espontánea de una rata durante la 


HORAS DE DESCANSO 


Resp. seg. 


50 resp. 


30 minutos 


extinción, la parte más pronunciada corresponde al registro 
después de 48 horas de descanso. 
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EXTINCIÓN Y PATRONES DE REFORZAMIENTO 


La resistencia a la extinción de una respuesta 
operante condicionada depende, en forma crí- 
tica, del programa de reforzamiento durante 
la adquisición (véase la sección 5.6), las res- 
puestas condicionadas desarolladas bajo un pro- 
grama de reforzamiento intermitente son mu- 
cho más “fuertes” que aquellas desarrolladas 
bajo reforzamiento continuo. Este descubri- 
miento paradójico es otro de los descubrimien- 
tos notables de la psicología moderna y tiene 
aplicaciones prácticas impresionantes. O, H. 
Mowrer y H. Jones dieron una de las muchas 
demostraciones, descritas en la literatura. Estos 
investigadores entremaron cinco grupos de ra- 
tas a presionar la barra en una caja de Skinner: 
el primer grupo aprendió bajo un programa 
de reforzamiento continuo (cada presión de 
la palanca, reforzada) ; los grupos segundo, ter- 


TOTAL DE RESPUESTAS DE EXTINCION 
TOTAL DE UNIDADES DE RESPUESTA DE EXTINCION 


25 333 40 
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cero y cuarto bajo programas de razón fija 
(respectivamente RF 2 —reforzamiento para 
cada segunda presión de la barra, RF 3— re- 
forzando cada tercera presión de la barra, y 
RF 4 reforzando cada cuarta presión de la ba- 
rra); y el quinto grupo bajo un programa de 
razón variable (RV 2.5 —-reforzando después 
de la segunda, tercera o cuarta respuesta con un 
promedio de 2.5). Se dejó de reforzar y todos 
los grupos procedieron a la extinción durante 
varios días. La figura 5-11b muestra una grá- 
fica de extinción del total de respuestas emi- 
tidas por cada uno de los cinco grupos. Los 
resultados son confusos; los grupos que fueron 
recompensados menos frecuentemente (en por- 
centaje) desarrollaron, en forma creciente, cada 
vez mayor resistencia a la extinción. Las ratas 
que respondieron más durante la extinción fue- 
ron aquellas que habían sido menos reforzadas 
durante la adquisición. El principio se aplica 


Unidades de respuesta de extinción 


Programa de reforzamiento 
Valor de ta unidad de respuesta 
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PORCENTAJE DE REFORZAMIENTO DURANTE LA ADQUISICION 


FIGURA 5-11b. Las respuestas operantes condicionadas 
que se adquieren bajo un programa de reforzamiento inter- 
mitente, son más resistentes a la extinción que las respuestas 
operantes condicionadas adquiridas bajo reforzamiento con- 
tínuo, como se muestra en la curva superior; el organismo 


emite más respueslas después de menos recompensa, O. H. 
Mower y H. Jones resolvieron el enigma proponiendo que 
la extinción puede entenderse en términos de unidades de 
rspuesta reforzada durante la adquisición, como se muestra 
en la curva inferior. 
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a niveles astronómicos de reforzamiento inter- 
mitente: B, F. Skinner informa de una paloma 
que fue condicionada con un programa REF 
900 (recompensada una vez después de cada 900 
picotazos), la cual, cuando se le descontinuó el 
reforzamiento, emitió 73000 respuestas no re- 
forzadas; y otra paloma condicionada bajo un 
programa RV 35 (recompensada variablemente 
con un promedio de una vez por cada 35 pi- 
cotazos), la cual, emitió 10000 respuestas no 
reforzadas. 

La mayor resistencia a la extinción asociada 
con el reforzamiento intermitente parece estar 
en conflicto con la Ley del Efecto —un canon 
psicológico que implica que las respuestas re- 
forzadas más frecuentemente son más “fuertes” 
y más resistentes a la extinción que aquellas 
respuestas reforzadas menos frecuentemente 
(véase la sección 5.2); el experimento Mowrer- 
Jones parece demostrar que las respuestas re- 
forzadas menos frecuentemente son más “fuer- 
tes” que las respuestas reforzadas más frecuen- 
temente. Sin embargo, dos análisis demucstran 
que los datos de este experimento no se oponen 
a la ley: 

1. Si se hipotetizan unidades de respuesta 
(varias respuestas tomadas colectivamente) 
—en vez de respuestas individuales---- el refor- 
zamiento intermitente posee una extinción ven- 
tajosa sobre el reforzamiento continuo. Desde 
este punto de vista, la adquisición procede me- 
diante reforzamiento de “grupos” de respuestas 
o unidades de respuestas; así, en el experimento 
Mowrer-Jones en la figura 5-11b el grupo RF 1 
es reforzado por cada respuesta, el grupo RF 
2, por cada dos respuestas, el RV 2.5 por cada 
do3 punto cinco respuestas, el RF 3 por tres 
respuestas, y el RF 4 por cuatro respuestas, 
La extinción también procede por unidades de 
respuestas, La figura 5-11b muestra los datos 
de la extinción, convertidos de respuestas, a 
unidades de respuestas; por ejemplo, 188 res- 
puestas de extinción del grupo RF 2 se dividen 


entre dos dando 94 unidades de respuestas de 
extinción. Los grupos recompensados menos 
frecuentemente en términos de unidades de res- 
puestas, desarrollan en forma creciente, menos 
resistencia a la extinción. 

2. Si se hipotetiza la diferencia entre ad- 
quisición y extinción, también puede explicarse 
la extinción ventajosa de reforzamiento inter- 
mitente. Un animal continuará respondiendo 
durante la extinción mientras pueda discrimi- 
nar entre el patrón de reforzamiento durante 
la adquisición y la extinción. Para el grupo 
RF 1 la adquisición y la extinción son fácil- 
mente discriminadas, puesto que el reforzamien- 
to sigue a la respuesta en la adquisición, pero 
nunca en la extinción. Sin embargo, para el 
grupo RF 4 la adquisición y la extinción son 
más semejantes; de modo que cinco respuestas 
no reforzadas pueden ocurrir durante la ex-. 
tinción antes de que pueda discriminarse la 
adquisición y la extinción —y entonces la dis- 
criminación se lleva a cabo gradualmente. Por 
lo tanto, una respuesta operante condicionada, 
que ha sido adquirida bajo reforzamiento 
intermitente, disminuirá lentamente durante la 
extinción. 

La extinción prolongada después del refor- 
zamiento intermitente explica conductas que 
de otro modo serían incomprensibles - -como 
el jugador que persiste jugando cartas a pesar 
de que pierde sumas considerables continua y 
sostenidamente. D. J. Lewis y €, P. Duncan 
han demostrado que la extinción después de 
la adquisición mediante reforzamiento inter- 
mitente con estudiantes jugadores de cartas, es 
exactamente equivalente a la extinción, previo 
reforzamiento intermitente, durante la adqui- 
sición de las ratas que presionan la barra. Se 
invitó a un grupo de estudiantes universitarios 
para que jugaran con máquinas de apuestas, 
tanto tiempo como quisieran. Las máquinas 
estaban “arregladas”. Algunos estudiantes ga- 
naban cn un programa intermitente (12.5 a 
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15% de reforzamiento), otros ganaban conti- 
nuamente (100% de reforzamiento) y otros 
nunca ganaban (cero % de reforzamiento). 
Cuando la máquina dejó de dar dinero, aque- 
llos con el porcentaje de reforzamiento más 
bajo exhibieron mayor resistencia a la extinción 
(jugaron por más tiempo). En un estudio si- 
milar, aquellos que ganaron mayor cantidad 
de dinero, exhibieron la mayor resistencia a la 
extinción. Evidentemente, aquellos jugadores 
que ganan sumas impresionantes de dinero de 
vez en cuando en un programa de razón varia- 
ble, persistirán enconadamente en hacer más 
y más apuestas, aún perdiendo, antes de la 
extinción final. 

La extinción prolongada también explica, en 
parte, la terca actividad del niño en hacer be- 
rrinches que ocasionalmente influencia en su 
madre; la implacable insistencia del prometido 
de una dama que ocasionalmente acepta su 
invitación a cenar, y los intentos tenaces que 
hace un hombre para encender un cigarrillo 
con un encendedor que funciona solo de vez 
en cuando (él se habría dado por vencido rí- 
pidamente si el encendedor siempre hubiera 
funcionado). Por lo tanto, el control de la 
conducta tiene una regla: si usted desea que 
la conducta persista, refuércela ocasionalmente 
en vez de continuamente, y sli usted desea que 
la conducta cese, nunca la refuerce o quizá 
refuércela continuamente, pero no la refuerce 
intermitentemente. 

La tasa de respuesta estable que presentan 
las palomas durante la extinción cuando han 
sido parcialmente reforzadas, fue la base del 
primero de tres insólitos proyectos de inves- 
tigación, durante la Segunda Guerra Mundial, 
que involucraban animales.*” El personal mili- 


10 El segundo proyecto incluía cierto tipo de aves 
que construían nidos en las pistas de aterrizaje de la 
Isla Ascención, una estación de reabastecimiento de 
gasolina que se encuentra a la mitad del Atlántico. Los 
científicos de la conducta importaron suficientes gatos 
como para llenar un aeroplano B-24, y esperaron que 


tar había observado que el bombardeo aéreo 
sería más efectivo, si las bombas siempre dieran 
en el blanco. Se diseñaron varios mecanismos 
para guiar la bomba, algunos con controles 
electrónicos desde el aeroplano que las soltaba. 
En los últimos días de la guerra, el bombardeo 
era todavía un asunto incierto, dado que el 
encargado de tirar las bombas tenía que tomar 
en cuenta el sistema balístico de la bomba mis- 
ma, la velocidad y altitud del avión, las velo- 
cidades de los vientos y el movimiento del 
blanco. El que una persona dirigiera la bomba 
hubiera traído mejores resultados, y los japo- 
neses utilizaron pilotos especialmente entrena- 
dos, los Kamikazes, que eran generalmente, pero 
no siempre, valientes y hábiles (recibían como 
recompensa un ascenso en su rango militar). 
Dado que los pilotos americanos no eran de- 


estos predatores destruyeran a los enemigos de la Re- 
pública. Pero los gatos no sobrevivieron a la batalla. 
Al final, miles de soldados se paseaban por toda la Isla 
de Ascención, rompiendo los huevos de estas aves, mien- 
tras sufrían el ataque aéreo de las madres que los ha- 
bían puesto. El tercer proyecto se refería a colocarles 
a los murciélagos pequeñas cápsulas incendiarias, y li- 
berarlos desde algunos aeroplanos sobre las casas de 
las ciudades japonesas que generalmente están hechas 
de papel; se suponía que los murciélagos iban a guare- 
cerse en lugares difíciles de alcanzar y de esta manera 
pondrían en movimiento miles de incendios difíciles de 
extinguir. Se abandonó este proyecto porque parecía 
guerra biológica. Louis N. Ridenour expresó su des- 
contento de esta manera: “En cierto modo estoy triste 
de que no se haya soltado a los murciélagos, Imagí- 
nese un enorme bombardero de cuatro motores rom- 
piendo el velo de la noche justo antes del amanecer. 
La navegación se hace por radar en la oscuridad, y el 
encargado del radar le musita correcciones en el curso 
de la navegación al piloto a través del interfón. Las 
luces de los reflectores enemigos buscan al avión en las 
alturas como si fueran dedos luminosos, y de vez en 
cuando se ven cada vez más cerca las ominosas pelotas 
de humo de las explosiones... Por fin ha llegado el 
momento de soltar las bombas. El piloto pone los con- 
troles en automático, de manera que el bombardero 
pueda dirigir el aeroplano. El bombardero se inclina 
sobre su radar concentrándose en el rumbo, Finalmente, 
cuando la tensión de la tripulación se ha vuelto in- 
aguantable hay una abrupta iluminación en el avión. 
El bombardero se enderesa y suspira, Apretando el bo- 
tón del interfón, pronuncia las palabras que la tripu- 
lación ha estado esperando: ¡LIBEREN A LOS MUR- 
CIÉLAGOS””, 


(O) University of Chicago Press 


FIGURA 5-12. Durante la Segunda Guerra Murdial, B, F. 
Skinner envió sus palomas condicionadas, a una batalla 
simulada, en un proyectil de aire-a-tierra, proyectil llamado 
Pelícano. Se entrenaron tres palomas como equipo para 
rastrear blancos militares. La fotografía de ls izquier- 
da muestra a las palomas “en capilla”, esperando para 
la prueba y entrenamiento, como pilotos de proyectiles. La 
fotografia de la derecha muestra al Pelicano albergando 
a las palomas, con tres lentes, proyeciando imágenes de 
tres discos translúcidos —uno para cada una de los pa- 
lomas. La fotografia opuesta muestra una paloma durante 
el simulacro de bombardeo sobre un compo de batalla 
japonés. 


masiados y que el problema del bombardeo 
preciso era agudo, B. F. Skinner propuso que 
las bombas de los aliados fueran guiadas por 
palomas “disponibles”? —en otras palabras, que 
se pusieran palomas en el detonador, Los ani- 
males habían sido utilizados antes en el com- 
bate, como Skinner hizo notar, puesto que los 
británicos habían utilizado gaviotas para se- 
guir el rastro de los submarinos, y los rusos 
habían entrenado a perros que cargaban explo- 
sivos para atacar los tanques alemanes. 

El proyecto de hombardeo con palomas, fue 
financiado como un servicio público por la 
General Mills (véase la figura 5-12). Se co- 
menzó a desarrollar el primer proyectil ameri- 
cano de aire-a-tierra; el aparato, llamado Pe- 
lícano, estaba lleno con el equipo guiador y 
tenía poco espacio para los explosivos (el pelí- 
cano es un ave rara; su buche almacena más 
de lo que puede su panza).* Skinner y sus 
asociados construyeron un simulador para el 


* Comentario humorístico introductible (N, del T.). 
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cono de la nariz del pelícano y metieron dentro 
a una paloma ——cuya cabeza emergía desde una 
especie de medio calcetín que la encasillaba— 
junto con una lente que proyectaba en una pan- 
talla traslúcida el campo de batalla o la imagen 
de cualquier otro blanco. Se reforzaba a la pa- 
loma, bajo reforzamiento intermitente, a picar 
directamente a la imagen del blanco, sin tomar 
en Cuenta su posición en la pantalla. Un con- 
tacto eléctrico, que después fue una válvula de 
aire, se colocó en cada una de las esquinas de la 
pantalla; un par de estos contactos controlaba 
el “elevador” y otro par, el “timón” del simula- 
dor. Cuando el blanco estaba en el centro de la 
pantalla, la paloma picaba en el centro de 
la pantalla: todos los contactos se cerraban con 
igual frecuencia y el pelícano simulador volaba 
directo al blanco. Cuando el blanco se movía 
fuera del centro de la pantalla, la paloma pica- 
ba en esa misma dirección, fuera del centro 
de la pantalla; algunos contactos se cerraban 
más a menudo que otros, los controles de vuelo 
efectuaban las correcciones para regresar el blan- 
co al centro de la pantalla, y así el simulado 
pelícano volaba derecho al blanco. 
Convencido de que las palomas eran el sis- 
tema divino de guiar los futuros proyectiles, 
Skinner rápidamente resolvió los pocos proble- 
mas técnicos que se presentaron. Las palomas, 
sin reforzamiento, picaban durante un tiempo 
mucho más largo que el vuelo de cualquier pro- 
yectil. La tasa de picoteo de la paloma no su- 
fría disturbios mi por la presión del aire a 
10 000 metros de altura ni por los cambios de 
esa misma presión durante la caída libre desde 
tal altitud. A las palomas no les preocupaba en 
lo más mínimo el molesto y fuerte ruido de los 
motores del aeroplano. Las palomas podían sos- 
tener fácilmente la fuerza periférica de las bom- 
bas; cuando se les colocaba en una centrífuga 
ellas continuaban picoteando a altas tasas hasta 
desmayarse. Skinner entrenó a sus palomas a 
picotear a una gran variedad de objetos sólidos 


distinguibles —aun cuando estuviesen escondidos 
entre material irrelevante. Por ejemplo, había pa- 
lomas de acorazados, palomas de lanza torpedos, 
palomas de porta-aviones, palomas de Reichs- 
tag, palomas de Brandenburg Gate, palomas de 
Palacio del Emperador y palomas de la fábrica 
Mitsubishi. El que las palomas necesitaran un 
entrenamiento previo, no parecía ser una des- 
ventaja crítica, ya que el bombardeo moderno 
se planea para blancos selectos. 

Quedaba un obstáculo, las palomas y los apa- 
ratos de control formaban un “circuito-cerra- 
do” o servomecanismo; la respuesta de las pa- 
lomas influenciaba al aparato de control, el 
cual, a su vez influenciaba a las palomas. Los 
servomecanismos tienden a “buscar” una posi- 
ción central de equilibrio; para asegurarse, el 
mecanismo de control osciló ampliamente por- 
que las palomas picaban con velocidad insufi- 
ciente, La primera solución de Skinner fue dro- 
gar a las palomas con mariguana. Mientras las 
palomas estaban “aceleradas” picaban más rá- 
pido, pero frecuentemente a la mitad de un 
simulacro de ataque de proyectiles, dejaban de 
picar, abandonándose a los sueños avícolas, pro- 
piciados por el hashish. Eventualmente, Skinner 
terminó utilizando tres palomas para el proyec- 
to llamado Pelícano, y en esta forma triplicar 
la velocidad de picoteo —cada paloma con su 
propia pantalla translúcida; el aparato guía 
tomaba un concenso de las respuestas; y actuaba 
de acuerdo a la opinión de la mayoría. 

Las palomas trabajaban dentro de un simu- 
lador de bombardeo especialmente construido. 
Localizaban blancos difíciles, sin error, durante 
periodos largos, con más precisión que ningún 
equipo electrónico de guía, disponible hasta el 
momento. Este hecho no debe pasarse por alto, 
a pesar de las bromas que se hicieron acerca del 
aparato de Skinner, al que se llamó “Cerebro 
de pájaro”. 

El proyecto se terminó prematuramente en 
Washington. Se juntaron doce distinguidos cien- 
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tíficos, para observar la “caja negra” de Skin- 
ner, con su superior capacidad de rastreo, y 
quedaron impresionados de la exactitud con 
que la caja seguía los blancos, Sin previa infor- 
mación, abrieron la caja que supuestamente 
estaba llena con un equipo electrónico. El albo- 
roto provocado por las tres palomas picotean- 
do, era incontrolable, y los científicos rechazaron 
investigaciones posteriores, sin embargo, tenían 
conocimiento de una sola bomba que se arroja- 
ría sobre Hiroshima —-arma que daría fin a la 
necesidad de un bombardeo preciso.** 


El PROCESO DE EXTINCIÓN 


Los psicofisiólogos han investigado muchas 
de las variables que afectan la extinción: 

[7 La resistencia a la extinción aumenta con 
el número de respuestas reforzadas durante la 
adquisición, S. B. Williams condicionó, median- 
te el método operante discreto, a cuatro grupos 
equivalentes de ratas blancas a que presiona- 
ran la barra para obtener reforzamiento de co- 
mida, en una caja de Skinner. Los grupos reci- 
bieron 5, 10, 30 y 90 reforzamientos respecti- 
vamente, Después de 22 horas de privación, se 
procedió a la extinción en todos los grupos 
—responder sin reforzamiento. Los resultados 
indicaron que cuanto más reforzamiento se daba 
durante la adquisición, se creaba más “reserva 
refleja” y se emitía mayor número de respuestas 
no reforzadas antes de que se lograra la extin- 
ción total. P. $. Siegal y J. G. Foshee reportan 
extinción de conducta similar en niños que pre- 
sionaban palancas para obtener dulces. 

O La extinción completa, indicada por un 
aplanamiento del trazo del registro acumulado, 
solamente puede ocurrir en presencia de aque- 


M El uso posible de las respuestas animales en los 
sistemas de orientación no se abandonó por completo. 
La marina de los Estados Unidos de Norteamérica te- 
nía una unidad especial dedicada a su estudio, el 
ORCON (Control Orgánico). 


llos estímulos condicionados que estuvieron pre- 
sentes durante la adquisición. Cuando el estímulo 
discriminativo bajo extinción es similar (pero no 
idéntico) al estímulo discriminativo presente du- 
rante la adquisición; el animal, debido a la ge- 
neralización, responde a tasas reducidas y final- 
mente para por completo (véase arriba). Esta 
pseudo extinción difiere de la extinción absoluta 
porque la “reserva refleja” del animal (su reser- 
vorio de respuestas no reforzadas que no han 
sido gastadas) no se ha agotado por completo; 
cuando se reintroduce el estimulo discriminativo 
que estaba presente durante la adquisición, el 
animal responde inmediatamente a altas tasas. 
B. Y. Skinner demostró la pseudo-extinción me- 
diante el condicionamiento de una paloma a 
picotear un triángulo amarillo en una caja de 
Skinner. Después se cambió el estimulo amarillo 
por uno rojo y se retiró el reforzamiento. Al 
principio la paloma picó a tasas más bajas y 
después dejó de picar — una manifestación de 
pseudo-extinción. Después se presentó nueva- 
mente el estímulo amarillo, pero sin reforza- 
miento, y la paloma inmeditamente picó a altas 
tasas, y después de muchas respuestas, paró por 
completo. La respuesta condicionada se extin- 
guió completamente, y no se presentaría nue- 
vamente, sin ensayos posteriores de adquisición 
(excepto, por supuesto, por recuperación es- 
pontánea). 

O La extinción depende de la motivación 
del animal durante el proceso de extinción. B. 
F. Skinner condicionó sus ratas a presionar la 
barra en una caja de Skinner; en días sucesivos 
de entrenamiento, se privó a las ratas en forma 
alternada, privadas totalmente de comida (las 
ratas obtenían comida emitiendo las respuestas 
operantes a tasas altas), moderadamente priva- 
das de comida (obtenían comida emitiendo las 
respuestas operantes a bajas tasas de respuesta). 
Después se dividieron las ratas en dos grupos 
equivalentes. En el primer grupo, se procedió 
a la extinción de la respuesta de presionar la 
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barra (no reforzamiento) en días alternados, 
cuando el animal estaba totalmente privado; 
en el segundo grupo se procedió a la extinción 
de la respuesta de presionar la barra (no refor- 
zamiento) en días alternados cuando el animal 
estaba moderadamente privado. Ambos grupos 
recibieron casi la misma cantidad total de co- 
mida. El grupo totalmente hambriento, alta- 
mente motivado, demostró mayor resistencia a 
la extinción que el grupo parcialmente ham- 
briento, poco motivado. 

O La tasa de extinción, mediante el méto- 
do operante discreto, depende del intervalo de 
tiempo entre ensayos. W. H. Teichner ha de- 
mostrado que las ratas extinguen la respuesta 
de presionar la barra más rápidamente con en- 
sayos masivos, separados solamente por 15 se- 
gundos, que aquellas ratas con ensayos distri- 
buidos, separados por 90 segundos. 

KO La extinción depende del esfuerzo reque- 
rido para emitir la respuesta operante. J. Cape- 
hart, W. Viney e 1. M. Hulicka condicionaron 
ratas para que presionaran la barra en una caja 
de Skinner; cuando la presión necesaria para 
hacer funcionar la barra era de 5, 40 o 70 gns., 
cada uno de los animales respondió de igual 
manera para cada una de las tres presiones 
diferentes. Después se retiró el reforzamiento, 
y se dividieron las ratas en tres grupos equiva- 
lentes, y se procedió a la extinción de la res- 
puesta operante condicionada. En el primer 
grupo se extinguió la respuesta de presionar la 
la barra con una presión de 5 grs., para el se- 
gundo grupo de 40 grs., y para el tercero de 
70 grs. Los resultados mostraron que el primer 
grupo exhibió la mayor resistencia a la extin- 
ción, el segundo grupo exhibió menos, y el 
tercer grupo exhibió la menor resistencia. 

O La variabilidad de la curva de la extin- 
ción depende, en parte, de la conducta de des- 
agrado mostrada por el animal (“emoción”). 
Cuando repentinamente se deja de reforzar la 
respuesta operante condicionada, la paloma, por 


ejemplo, manifiesta trastornos fisiológicos evi- 
dentes —se mueve rápidamente, hace mucho 
ruido, aletea agachada y defeca; conforme la 
paloma se ajusta al proceso de extinción, los 
componentes afectivos desaparecen y las curvas 
sucesivas de extinción son cada vez más regu- 
lares. 


5.9 EL CASTIGO Y LA RESPUESTA CONDICIO- 
NADA BAJO ENTRENAMIENTO 
DE RECOMPENSA 


El aparato legal clama arbitrariamente que 
la conducta ilícita e indeseable debe castigarse 
para asegurar la eliminación de las respuestas 
fuera de la ley o antisociales; por ejemplo, de 
acuerdo a nuestro código basado en la ley mo- 
ral, el acusado de fraude recibe castigos cada 
vez más severos. Los psicólogos han demostrado 
la validez general de estas premisas mediante 
el estudio de los efectos del castigo sobre: 1) 
las respuestas condicionadas bajo entrenamien- 
to de recompensa continua y 2) las respuestas 
condicionadas bajo entrenamiento de recom- 
pensa durante la extinción: 

1. La tasa de respuestas de las operantes con- 
dicionadas, mantenidas bajo recompensa, es 
desacelerada mediante el castigo. N. H. Azrin 
condicionó a una paloma hambrienta a picar 
un disco para obtener comida, bajo un pro- 
grama de intervalo variable. Haciendo uso de 
un “arnés” para pájaros el experimentador le 
dio un toque a la paloma después de cada pico- 
tazo, mientras que, por supuesto, el páparo con- 
tinuaba recibiendo comida ocasionalmente. Se 
tomaron los registros acumulados bajo diferen- 
tes intensidades de choque. Cuanto más fuerte 
era el castigo, mayor era la supresión de la 
respuesta operante condicionada. 

2. La extinción de la respuesta operante con- 
dicionada bajo entrenamiento de recompensa 
es acelerada por el castigo, N. H, Azrin condi- 
cionó cuatro palomas hambrientas a picar un 
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disco para obtener comida bajo un programa 
de intervalo fijo. Se procedió a la extinción con 
la primera paloma sin reforzamiento de comida 
y sin choque. Se procedió a la extinción con las 
palomas restantes sin reforzamiento de comida 
pero con un choque siguiendo a cada picotazo 
(de intensidad diferente para cada una de las 
palomas). Cuanto mayor era el castigo mayor 
era la reducción del número de respuestas ope- 
rantes emitidas, 

Aun cuando las respuestas operantes condi- 
cionadas pueden debhilitarse mediante el castigo 
y fortalece mediante la recompensa, los efec- 
tos del castigo no son el anverso de los de la 
recompensa; el castigo no “elimina” tal como 
la recompensa “fija”. Las respuestas operantes 
condicionadas no se eliminan del repertorio del 
organismo mediante el castigo: solamente se 
suprime la respuesta, y puede volver a surgir 
después de un tiempo de su aparente desapari- 
ción, Experimentos más amplios realizados por 
W. K. Estes, N. H. Azrin y B. F. Skinner apo- 
yan esta posición: 

[7 El efecto burdo de la mayoría de los cas- 
tigos es temporal e inestable, El castigo de una 
respuesta que ha sido condicionada bajo re- 
compensa es gradualmente cada vez menos efec- 
tivo. El registro acumulado del picoteo de una 
paloma a la que se le han dado choques, mues- 
tra mayor declinación día a día, a pesar de los 
choques, aunque nunca alcanza su nivel origi- 
nal de cuando no había sido castigada. 

[] El efecto inmediato de la mayoría de los 
castigos es transitorio; el castigo tiene poca in- 
fluencia duradera sobre el número total de res- 
puestas emitidas durante la extinción. Ratas que 
previamente habían aprendido a presionar la 
barra, se les castigó mediante un brusco rebote 
de la barra durante los diez primeros minutos de 
la extinción; las ratas respondieron inicialmente 
a tasas de respuestas más bajas (en comparación 
con las ratas que no habían sido castigadas), 
pero a tasas más altas conforme continuaba la 


extinción. Al final de la extinción, las ratas que 
habían sido castigadas y las no castigadas, ha- 
bían emitido casi el mismo número de res- 
puestas durante el mismo periodo de extinción. 
Durante la extinción parece ser que se gasta un 
“reservorio de respuestas”, el cual no es reduci- 
ble por el castigo, 

O El castigo tiene efecto de “rebote”, que 
incrementa la tasa de las respuestas que han 
sido condicionadas bajo recompensa; el sen- 
tido común predice lo contrario. Una paloma 
que había estado picando para obtener comida 
y al mismo tiempo recibía un choque, cuando 
se le retiró el choque, empezó a picar más rápido 
de lo que lo había hecho previamente, cuando 
la respuesta era sostenida solamente por comida, 
sin castigo. 

O Para que el castigo sea eficiente durante 
la extinción no es necesario que siga inmediata- 
mente a la respuesta condicionada (el reforza- 
miento positivo eficiente debe seguir inmedia- 
tamente a la respuesta; véase la sección 5.6). 
El choque aceleró la aparente desaparición de 
la respuesta de una rata de presionar la barra; 
tanto cuando el choque venía después de la 
espuesta como cuando se presentaba antes, o 
algunas veces antes y otras después. 

El efecto supresivo del castigo tiene dos me- 
canismos —-el descontrol “emocional” del ani- 
mal y su retirada de la situación de castigo: 
1) El castigo invariablemente va acompañado 
de una confusión general y depresión de todas 
las respuestas existentes, incluyendo, por supues- 
to, la respuesta operante condicionada que se 
va a destruir, El castigo no puede ejercer con- 
trol definitivo sobre la extinción, sin embargo, 
cuando se quita el castigo también desaparece 
el trastorno “emocional” que lo acompaña. La 
respuesta operante condicionada permanece bá- 
sicamente intacta. 2) Conforme se administra el 
castigo repetidamente, los estímulos (por ejem- 
plo, la barra en la caja de Skinner) que acom- 
pañan la ejecución de la respuesta operante 
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condicionada, llegan a ser estímulos discrimina- 
tivos aversivos, una señal de alarma, que indica 
que viene el castigo. El animal aprende a reti- 
rarse de los estímulos y cuando no tiene presente 
el estímulo idéntico, necesario para provocar la 
respuesta, no la puede efectuar. Pero el castigo 
no tiene efecto duradero en la extinción. Cuan- 
do se retira el castigo, el estímulo discriminativo 
pierde sus propiedades aversivas. La respuesta 
operante condicionada se preserva y no es alte- 
rada en forma fundamental. 

El castigo es moderadamente útil para el 
control práctico de la conducta: es completa- 
mente aceptable sólo en aquellas circunstancias 
en que sus efectos colaterales emocionales y su- 
presivos sean tolerables. Hay un tipo de aplica- 
ción que requiere castigo ilimitado. Por ejemplo, 
una cerca de un solo alambre electrificado, que 
se usa ampliamente entre los granjeros, refuerza 
negativamente la respuesta de los toros de que- 
rer salir del corral. Puesto que la respuesta de 
querer salir no se extingue por el castigo, ésta 
reaparece con mayor fuerza, después de que se 
retira el castigo; los toros invaden el condado 
vecino cuando falla la corriente eléctrica. Otro 
tipo de aplicación del castigo, requiere castigo 
limitado para restringir temporalmente una res- 
puesta indeseable mientras que el animal apren- 
de otra. Por ejemplo, la caña de pescar electróni- 
ca que emplean los psicólogos en los criaderos 
de pescados. Esta caña da un choque eléctrico 
a la trucha ansiosa por salir a la “superficie” 
para obtener comida. La trucha, si va a comer, 
debe hacerlo en los sumideros muy debajo de 
la superficie. Después cuando la trucha adies- 
trada es liberada en el arroyo, prefiere la co- 
mida natural que está en el fondo, en vez de la 
carnada del pescador que está en la superficie. 

Sin embargo, el castigo es peligroso en situa- 
ciones donde sus componentes afectivos pueden 
ser transferidos o generalizados. Un castigo en 
el momento inadecuado puede establecer es- 
tímulos discriminativos aversivos fuera de lugar; 


si usted le pega a su perro porque persigue a los 
automóviles, después en el momento en que 
usted llega a su casa, el perro se alterará emo- 
cionalmente, no cuando esté persiguiendo a los 
automóviles —la respuesta que no se va a volver 
a presentar es, exactamente, la que fue castiga- 
da, en este caso el llegar a la casa, Por tanto, 
muchos penalistas sugieren que el castigo no 
extingue la respuesta de robar de los rateros, 
sino simplemente crea prisioneros con reacciones 
emocionales en la presencia del sistema judicial, 
el cual administra el castigo, Además, el rango 
del estímulo discriminativo aversivo puede am- 
pliarse y esto es peligroso; por ejemplo, una 
muchacha a la que se le castiga por ponerse 
el vestido de fiesta de su madre, puede desa- 
rrollar una respuesta emocional generalizada 
para todos los vestidos de fiesta. Muchos psicó- 
logos piensan que el fenómeno de generaliza- 
ción aversiva es la base de los miedos irracio- 
nales, denominados fobias, 

Por último, el castigo es peligroso puesto que 
puede condicionar respuestas sustitutas por en- 
trenamiento de escape o de evitación (véase la 
discusión detallada en las secciones 5,10 y 5.12). 
Cuando el animal no puede apartarse del estímu- 
lo discriminativo aversivo, busca una respuesta 
que le permita escapar del castigo después de 
que se presente y/o evitar el castigo antes de que 
se presente. Una respuesta que es seguida por el 
escape o la evitación es, obviamente reforzada, 
y llega a ser una respuesta operante condicio- 
nada. Sin embargo, la respuesta operante casti- 
gada se conserva. Muchos psicólogos clínicos 
consideran que esta es una explicación de la 
represión; por ejemplo, un muchacho puede 
reprimir la memoria de su madre muerta, la 
cual lo golpeaba diariamente, y dedicarse en 
forma continua y compulsiva a armar aeropla- 
nos a escala. No se extinguieron los recuerdos 
aversivos, sin embargo, éstos pueden ser la causa 
desconocida, de desajustes de la personalidad 
(véase Temas de psicología núm. 9). 
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5.10 LA RESPUESTA CONDICIONADA BAJO 
ENTRENAMIENTO DE ESCAPE 


Esta respuesta condicionada se logra presen- 
tando un estímulo aversivo que angustia o pone 
en zozobra a un organismo (como un choque 
eléctrico) y si el animal emite la respuesta 
operante que se desea condicionar (como pre- 
sionar la barra), se retira el estímulo aversivo. 
El animal, por lo tanto, aprende a emitir la 
respuesta operante para escapar del estímulo 
aversivo. Cuando se completa el proceso de con- 
dicionamiento, siempre que el estimulo está pre- 
sente, el animal emite la respuesta. El entre- 
namiento de escape es un entrenamiento de 
alivio o descanso. 

La literatura reporta pocos estudios de entre- 
namiento de escape. J. A, Dinsmoor y E. Wino- 
grad condicionaron unas ratas a presionar la 
barra en una caja de Skinner electrificada, la fi- 
gura 5-13 muestra los registros acumulados del 
proceso de adquisición bajo un programa de 
intervalo variable, cada apretón de la barra pro- 
porcionaba a la rata dos minutos de posposición 
del choque. F. S, Keller reporta los registros 
acumulados del proceso de adquisición de la 
respuesta de presionar la barra bajo un progra- 
ma de razón fija, de unas ratas que fueron colo- 
cadas en una caja de Skinner iluminadas in- 
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tensamente (las ratas tienen una aversión innata 
a la luz intensa); cada vez que la rata presio- 
naba la palanca, obtenía un minuto de oscuri- 
dad. Keller también registró la curva de extin- 
ción; la rata presionó la barra por más de tres 
horas sin que se eliminara la luz intensa de 
castigo. 

Las aplicaciones prácticas del entrenamiento 
de escape son limitadas, dado que la respuesta 
operante debe aprenderse en presencia del es- 
tímulo aversivo. Los niveles bajos de castigo son 
más efectivos. Los niveles altos son inapropia- 
dos para tareas motoras que requieren ceoor- 
dinación fina de los músculos, ya que los efectos 
colaterales emocionales causan descontrol y des- 
orientación. Sin embargo, a veces una gran 
intensidad del castigo es efectiva en la enseñan- 
za de respuestas motoras gruesas, como saltar 
o correr; por ejemplo, a los caballos se les pega 
con el fuete hasta que galopan. 


5.11 LA RESPUESTA CONDICIONADA BAJO 
ENTRENAMIENTO DE EVITACIÓN 


Esta respuesta condicionada se logra presen- 
tando un estímulo aversivo si el animal no eje- 
cuta la respuesta operante que se desea con- 
dicionar. De este modo, el animal aprende a 
emitir la respuesta operante para evitar el re- 


FIGURA 5-13. Este registro acumulado describe la adqui- 
sición de una respuesta operanie condizionada bajo entre- 
nomiento de escape. Una rata empuja una barra, y res- 
ponde cada vez más rápido para escapar de choques, que 
cada vez son de moyor infensidad. Estos datos son de Jos 
experimentos realizados por J. A. Dinsmoor y E. Winograd 
(ma-microamperimetro). 
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forzamiento negativo. Una vez que se ha com- 
pletado el procedimiento de condicionamiento, 
el organismo siempre emite la respuesta antes 
de que se le presente el estímulo aversivo. El 
entrenamiento de evitación es un entrenamiento 
mediante amenaza. 

La literatura describe dos clases de entre- 
namiento de excitación -—el tipo-Hunter con 
un estímulo aversivo discriminativo o señalador 
(como un zumbido o una luz) el cual previene 
al animal de un estímulo aversivo inminente, 
y el tipo-Sidman, sin estímulo señalador. Walter 
S. Hunter y Murray Sidman son los autores ori- 
ginales de estos procedimientos y de ahí toman 
su nombre. 

R. L. Solomom y L. €, Wynne realizaron un 
experimento representativo de entrenamiento de 
evitación tipo-Hunter, con perro en una caja 
de doble compartimiento que llamaron “shuttle- 
box”, similar a la que se muestra en la figu- 
ra 5-14a. Los estímulos discriminativos eran 
luces colocadas en la parte superior de cada 


FIGURA 5-l4a. En un famoso experimento, realizado por 
R. L. Solomon y L. S. Wynne, el perro aprendió que el que 
repentinomente se apagara lo luz era una señal de que en- 
seguida venia un toque, y brincoba al otro compartimento 
para evitar el estimulo aversivo. 


uno de los compartimientos. Se colocó al perro 
en una de las secciones de la caja, y éste podía 
pasar a la otra sección brincando una barrera, 
Durante un ensayo de entrenamiento, se extin- 
guió la luz que estaba colocada en la parte 
superior del compartimiento donde estaba el 
perro (pero no así la luz que estaba en el otro 
compartimiento), después de 10 segundos de 
retraso se le administró al perro un toque ma- 
sivo, continuo, casi paralizante, a través de las 
rejillas metálicas del piso. Inmediatamente el 
animal desplegó el familiar “síndrome de acti- 
vación” de tipo emocional — se azotaba contra 
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FIGURA 5-14b. La curva de adquisición de la respuesta 
de un perro para evitar un toque paralizante. Primero el 
perro aprende a escapar del toque y después a evitarlo. 
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las paredes de la caja, miraba en todas direc- 
ciones con los ojos dilatados, temblaba, jadea- 
ba, se orinaba y defecaba. Finalmente, el animal 
brincó la barrera para escapar del castigo, res- 
puesta que surgió de su conducta de una ma- 
nera casi azarosa. En ensayos sucesivos, el perro 
escapaba enseguida de la señal con latencias 
(intervalos de tiempo) cada vez menores, Cuan- 
do la latencia bajó hasta 10 segundos, el perro, 
por supuesto, evitó el castigo; después de la 
señal el perro “anticipó” al toque y brincé antes 
de que éste se presentara, La figura 5-14b 
muestra una curva de adquisición de un perro 
e ilustra la transición del escape a la evitación. 

O. H. Hower y J. D. Keehn realizaron un 
experimento representativo de entrenamiento de 
evitación tipo-Sidman, con una rata albina en 
una jaula de rueda. No se presentó ningún es- 
tímulo discriminativo, Estando en la caja, si la 
rata corría, podía hacer rodar el aparato. Du- 
rante la primera sesión del primer día se le 
administró a la rata un toque eléctrico (desde 
el suelo de la jaula). Inmediatamente el animal 
manifestó el “sindrome de activación”, y even- 
tualmente, al mover la rueda dos pulgadas, 
escapó del toque. Veinte segundos después se 
le volvió a dar el toque y continuaba así hasta 
que la rata moviera nuevamente la rueda. Las 
latencias cada vez fueron más cortas, hasta que 
la rata evitó el castigo respondiendo antes del 
siguiente toque programado —-la respuesta pos- 
ponía el castigo durante veinte segundos adicio- 
nales. Dicho de otra manera, la rata evitaba el 
toque respondiendo al menos una vez durante 
el pericdo de 20 segundos previo a cada uno 
de los toques. La figura 5-14c muestra el regis- 
tro de una curva de adquisición de una rata 
durante los primeros tres días. Durante cada 
sesión diaria se planeó dar aproximadamente 
180 toques; el primer día la rata evitó 143, el 
segundo 165 y el tercero 169, 

Las respuestas condicionadas bajo entrena- 
miento de evitación son extraordinariamente rc- 


sistentes a la extinción. Los psicólogos se sintie- 
ron estimulados por este enigma, porque de 
acuerdo a la Ley del Efecto esta operante condi- 
cionada produce, automáticamente, circunstan- 
cias para su auto-extinción. Tomando en cuenta 
que una respuesta de evitación que ha sido ad- 
quirida no permite que se presente el castigo 
(un estímulo aversivo), no hay reforzamiento 
y, por lo tanto, la respuesta debería desapare- 
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FIGURA 5-14c. Los animales pueden aprender a evitar un 
estímulo aversivo sin necesidad de un estímulo señalador. 
Este registro acumulado muestra los datos de una rata que 
respondió continuamente cada 20 segundos para retrasar 
la presencia de un toque. 
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cer. Cuando la respuesta no ocurre, aparece 
nuevamente el castigo y la respuesta debe re- 
aparecer. De acuerdo con esto, la respuesta 
condicionada bajo entrenamiento de evitación 
debería ser altamente inestable, oscilando de un 
lado a otro; sin embargo la evidencia empírica 
muestra lo contrario. Muchos teóricos del apren- 
dizaje se enfrentan a este dilema hipotetizando 
un proceso de aprendizaje de dos etapas (o dos 
factores), donde el animal: 1) aprende a te- 
nerle miedo al castigo, y 2) después aprende a 
reducir el miedo (véase el Cuaderno Temas de 
psicología núm. 3 para una discusión completa 
de los motivos adquiridos). Las respuestas ad- 
quiridas bajo un entrenamiento de evitación 
supuestamente son motivadas, durante la extin- 
ción, por la reducción del miedo adquirido. 

Se han reportado prodigiosas resistencias a 
la extinción mediante los dos tipos de entrena- 
mientos de adquisición. R. L. Solomon, L. J. 
Kamin y L. C. Wynne encontraron que varios 
perros que habían sido entrenados por evitación 
tipo-Hunter, en el experimento descrito arriba, 
brincaban la barrera más de 500 veces sin refor- 
zamiento, con un solo toque; estos investigadores 
sugirieron que la respuesta de evitación era casi 
permanente e inextinguible cuando se usaba el 
procedimiento ordinario de retiro del castigo 
después del estímulo discriminativo. Sin em- 
bargo, Solomon y sus asociados, diseñaron tres 
métodos exitosos de extinción. 1. Usaron un 
procedimiento de enfrentamiento forzoso a la 
realidad, colocando una ventana de cristal sobre 
la barra, confinando de este modo al perro en 
su compartimiento, y demostrando que el toque 
no seguía a cambio de la iluminación. 2. Usa- 
ron un procedimiento de castigo, dándole un 
toque al perro después de que brincaba al otro 
compartimento; se castigaba al perro por emi- 
tir la misma respuesta que previamente se le 
había enseñado a emitir, para evitar el castigo. 
Usaron una combinación de estos dos frocedi- 
mientos - más efectiva que cualquiera de ellos 


por separado. Desde el punto de vista práctico, 
estas técnicas son importantes en el tratamiento 
psicoterapéutico de hábitos indeseables apren- 
didos mediante entrenamiento de evitación. De 
modo semejante Sidman encontró que varias 
ratas que habían sido entrenadas por evitación 
tipo-Sidman, en una caja de Skinner, presio- 
naban la barra más de 1400 veces sin reforza- 
miento con un solo toque eléctrico. 

El stress producido por el entrenamiento de 
evitación daña severamente la eficiencia poten- 
cial del procedimiento. El trastorno emocional 
de ansiedad incita al organismo a retirarse del 
proceso de aprendizaje, por ejemplo, estudian- 
tes intimidados aprendieron a evitar calificacio- 
nes desagradables; dejaban de aprender cuando 
se les obligaba a hacerlo -—esto va contra las 
metas de la educación moderna. 

J. V. Brady, en un experimento dramático 
y muy celebrado, demostró que el stress del 
entrenamiento de evitación puede causar tam- 
bién daños fisiológicos. Sus sospechas se agudi- 
zaron cuando 19 monos, bajo entrenamiento 
de evitación del tipo-Sidman, murieron repen- 
tinamente; los exámenes pos-mortem mostraron 
adelgazamientos gastrointestinales e incluso úlce- 
ras. En vista de estos datos, Brady diseñó un 
experimento acoplando dos monos que estaban 
sujetos a un sillón sentados uno al lado del otro. 
El primer mono fue condicionado mediante en- 
trenamiento de evitación del tipo-Sidman, ad- 
ministrándole un toque cada 20 segundos; este 
animal podía retrasar cada toque presionando 
un botón. El segundo mono era castigado al 
mismo tiempo que el primer mono; podía 
apretar el botón, pero sin ningún afecto en la 
secuencia de los toques. El primer mono al cual 
se le llamó mono ejecutivo tenía la responsabi- 
lidad de posponer el castigo, mientras que el 
segundo mono o empleado no tenía ninguna 
responsabilidad. Los monos estaban en entrena- 
miento de evitación durante un periodo de seis 
horas y después recibían seis horas de descanso, 
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operante). El maestro continuó prestando aten- 
ción al llanto (reforzó la operante). Finalmente, 
como se indica en la gráfica, el maestro ignoró 
al niño y el llanto cesó nuevamente. Esta fue 
una aplicación del principio fundamental del 
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condicionamiento operante; para extinguir una 
conducta indeseable, retire la recompensa. 

[J E. Haughton y T. Ayllon establecieron 
la conducta de sostener una escoba en una pa- 
ciente esquizofrénica letárgica, «aplicando los 
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FIGURA 5-15a. Los procedimientos del condicionamiento 
comúnmente son aplicados al control de la conducta hu- 
mana. La gráfica describe la adquisición y extinción de la 
respuesta de llorar en un niño de la escuela maternal; 
donde se presentó y retiró la recompensa social. Se modi- 
ficó la conducta sin considerar las causas subyacentes. 
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OPERANTE DE SOSTENER 
LA ESCOBA 


15 30 


FRECUENCIA DE LA RESPUESTA 


TIEMPO EN DIAS 


FIGURA 5-15b. 


procedimientos del entrenamiento operante. La 
paciente había estado hospitalizada durante 23 
años y casi no había hecho nada excepto fu- 
mar. Después de que un miembro del personal 
le daba la escoba, otro le daba un cigarro (se 
moldeó la operante). Como se ve en la figu- 
ra 5-15b, la paciente adquirió la conducta de 
sostener la escoba conforme se le fueron dando 
los cigarros intermitentemente (se reforzó la 
operante). Finalmente, se le dejaron de dar los 
cigarros y la conducta de sostener la escoba des- 
apareció. Esta fue la aplicación de uno de los 
principios fundamentales del condicionamiento 
operante: para producir la conducta deseada, 
presente la recompensa. 


5.14 CONDICIONAMIENTO OPERANTE 
APLICADO: 


ll. APRENDIZAJE PROGRAMADO 


B, F. Skinner escribió: “Los avances recien- 
tes en el análisis experimental de la conducta, 
sugieren que podemos desarrollar una verdadera 
tecnología de la educación. Siguiendo las prác- 
ticas del laboratorio experimental, podremos 
usar la instrumentación para equipar a los es- 
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Reforzamiento 


e 
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tudiantes con amplios repertorios de conducta 
verbal y no verbal. Y aún más importante, los 
aparatos promoverán el entusiasmo para un es- 
tudio continuado. Los instrumentos que ayuda- 
rán a nuestras escuelas a lograr todo esto son 
las máquinas de enseñanza”. Así Skinner pro- 
puso que la juventud americana adquiriera una 
parte substancial de su educación a través de 
versátiles y sofisticadas cajas de Skinner adap- 
tadas al tamaño del ser humano.** 

Una máquina de enseñanza (algunas de sus 
muchas modalidades se describen más adelan- 
te) presenta al aprendiz una serie de Ítemes 
uno por uno; cada uno de estos ftemes es una 
unidad de conocimiento, pequeña e indepen- 
diente, que alienta al aprendiz a emitir una res- 
puesta libre de errores. Aquí, por ejemplo, están 
los seis primeros ítemes de la sección sobre con- 
dicionamiento operante del libro programado, 
El Análisis de la Conducta de J. G. Holland y 
B. F. Skinner: 


13 Skinner en su novela Walden Two en 1948 ya 
había predicho la existencia de las máquinas de ense- 
ñanza, Antes de Skinner ya se habían propuesto nume- 
rosos “juegos de enseñanza”? mecánicos, pero todos eran 
tests elaborados con material que había sido aprendido 
con anterioridad. 
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“1. Los animales que trabajan en los circos, 
a veces son entrenados con “recompensas” 0 
premios. La conducta de un animal hambrien- 
to puede ser recompensada con - ; 

“2. El término técnico de recompensa es 
reforzamiento. Recompensar a un organismo 
con comida es —-——— con comida, 

“3. Técnicamente hablando, un organismo 
sediento puede ser ---——- con agua. 

4. El amaestrador refuerza al animal dán- 
dole comida —— — el animal ha actuado. 

“5. El reforzamiento y la conducta ocurren 
en este orden temporal: primero (a) (el, la) 
-—— (b) (el, la) ——. 

“6. La comida que se proporciona a un 
animal hambriento no refuerza una respuesta 
particular a menos que sea dada casi inmedia- 
tamente de la respuesta.” 

Las respuestas, desde luego, son: 1, comida, 
2, reforzar, 3, reforzado, 4, después, 5, conduc- 
ta, reforzamiento, 6, después, Al aprendiz se le 
da la respuesta esperada, después de que tiene 
la suya propia, y puesto que casi invariable- 
mente tiene la respuesta correcta, recibe casi 
continuamente reforzamiento positivo. La con- 
ducta terminal aprendida es fácilmente moldea- 
da. Aunque cada uno de los pasos del ítem es 
pequeño, muchos ítemes pueden conducir a un 
conocimiento complejo. Como una ilustración 
aquí se presentan los ítemes 3 y 97 del libro pro- 
gramado Modern Mathematics: A Programed 
Textbook de L. D. Eigen, J. D. Kaplan y Ruth 
Emerson. 

“3. El conjunto de números enteros del O al 
9 está compuesto por 10 números. Ellos son 
0, 1,2, 3,4,:5,6; 7,8, ==: 

“dd. € 1, 3,0, 7, 9 sentia que el 
7 es un - de (1,3,5, 7, 9).% 

El estudiante promedio tardaría menos de 
una hora en pasar del ítem 3 al 97, 


* Reproducido del curso 1 de la serie de 10 libros 
citada con anterioridad. 1961, Science Research Asso- 
ciates, Inc. Reproducido con permiso del editor. 
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Las máquinas de enseñanza son el fruto, que 
en el siglo xx, han dado las técnicas pedagógi- 
cas antiguas. Las raíces del aprendizaje pro- 
gramado moderno tienen más de 2,000 años, y 
se encuentran en los Diálogos de Platón y éstos 
están estructurados en el incomparable sistema 
tutorial de pregunta-respuesta desarrollado por 
Sócrates; cada pregunta cuidadosamente formu- 
lada provoca una respuesta, moldeando la próxi- 
ma pregunta. En uno de los más famosos pasajes 
literarios, Platón relató una conversación entre 
Sócrates, Meno, ciudadano de Atenas, y el es- 
clavo de Meno de 12 años (véase la figu- 
ra 5-16a): 

Sócrates a Meno: “Yo solamente le pregun- 
taré al muchacho, y no le enseñaré, él participará 
conmigo en el interrogatorio. Ve y observa si 
me descubres decirle o explicarle algo en vez 
de pedir su opinión.” 


FIGURA 5-160. Sócrates instruyendo a un esclavo griego 
en una de las primeras lecciones de geometría usando el 
diálogo tutorial. Sócrates pretende obtener cada uno de 
las subsecuentes respuestas de “aprendizaje” por medio 
de un astuto interrogatorio. Él entendió la importancia de 
fragmentar la información en pequeñas partes y, en este 
aspecto, fue el precursor de las máquinas de enseñanza. 
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Sócrates al muchacho: “Dime, no es un cua- 
drado de cuatro pies lo que he dibujado en la 
arena?” 

Muchacho: “Sí.” 

Sócrates: “Y ahora yo agrego otro cuadrado 
igual al primero.” 

Muchacho: “Si.” 

Sócrates: “Y un tercero el cual es igual a 
cualquiera de ellos.” 

Muchacho: “Sí.” 

Sócrates: “Supón que llenamos la esquina 
vacía.” 

Muchacho: “Muy bien.” 

Sócrates: “¿Cuántas veces es más grande el 
mayor de los cuadrados con respecto a cual- 
quiera de los más pequeños?” 

Muchacho: “Cuatro veces.” 

Y nueve preguntas después, Sócrates: “Ésta 
es la línea llamada diagonal y si éste es su nom- 
bre apropiado, entonces estás tú, muchacho de 
Meno, preparado para afirmar que un cuadra- 
do dado tiene dos veces el área de otro cua- 
drado si cl lado de dicho cuadrado es igual a 
la diagonal del otro?” 

Muchacho: “Ciertamente, Sócrates. 

Hace más de 1900 años el maestro de escuela 
romano Quintiliano agregó a este método fun- 
damental educativo el refinamiento del refor- 
zamiento positivo continuo: “Que la instruc- 
ción sea un pasatiempo para el alumno. Dejadlo 
ser interrogado y premiado. Que luche por la 
victoria y que la gane, de modo que sus poten- 
cilalidades se manifiesten en busca de recom- 
pensa.” 

Los proponentes del aprendizaje programado 
ven a las más viejas vías de comunicación edu- 
cacional —-libros de texto y conferencias, por 
ejemplo - como productos impersonales de un 
sistema pedagógico arcaico, y a las máquinas 


14 


14 Este diálogo no es equivalente al aprendizaje 
programado. Sócrates proporcionaba la respuesta correc- 
ta y no el muchacho de Meno. Sin embargo, el método 
Socrático de pregunta y respuesta es la base de la 
instrucción programada moderna, 
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de enseñanza más modernas, como el renaci- 
miento del método socrático remplazado por 
tutores privados superiores, Ellos afirman que 
Jos estudiantes que leen sus libros de texto no 
tienen esperanzas de que los libros les hablen, y 
que los estudiantes que sueñan despiertos aten- 
diendo a las clases emiten pocas respuestas abler- 
tas durante el proceso de aprendizaje. Por otra 
parte, afirman que los alumnos que estudian en 
una máquina de enseñanza empiezan y se de- 
tienen a su propio paso, constantemente inter- 
cambian información con su “instructor”, se 
mantienen atentos y hacen las respuestas reque- 
ridas, procediendo solamente después de que 
han entendido cada uno de los elementos del 
aprendizaje, y recibiendo reforzamiento cons- 
tante de modo que su conducta de aprendizaje 
es moldeada por el programa como si fuera un 
tutor, 

La composición y arreglo de los Ítemes dentro 
de un programa de enseñanza requiere de una 
paciencia tenaz; un programador experimen- 
tado en un periodo de 8 horas de trabajo escribe 
solamente unos 15 ítemes aceptables. Los inves- 
tigadores han desarrollado dos técnicas básicas 
de programación: 1, desvanecimiento y 2, in- 
ductivo-deductivo: 

1. El sistema de desvanecimiento es útil para 
materiales que deben ser memorizados, sin mucha 
necesidad de comprensión —tales como la or- 
tografía, el vocabulario en el estudio de idio- 
mas, términos anatómicos, y nombres geográ- 
ficos. El material que se va aprender se desvanece 
gradualmente; los ítemes del principio presentan 
todo el material, los ítemes siguientes sólo pre- 
sentan parte del material y, los últimos, ningu- 
no. B. F. Skinner describe un programa para 
enseñar a deletrear la palabra MANUFACTU- 
RA. El primer ítem pide al alumno que copie 
la palabra MANUFACTURA. El segundo ítem 
sugiere que llene los espacios de las cuatro 
letras que faltan MANU—-— —-—URA. El 
quinto ítem le propone que ponga la misma 
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letra en los dos espacios vacios MAN—FAC- 
T—-RA. El sexto ítem le ordena que llene los 
espacios en blanco LOS ARTESANOS —-—--— 
o oo-- MUEBLES, El sistema de desva- 
necimiento tiene algunas variaciones; por ejem- 
plo, los primeros íftemes de un programa de 
neuroanatomía muestran las partes del cere- 
bro, con una de las áreas tituladas PIRÁMIDES 
DEL TRAGCTO CORTICOESPINAL — (las 
otras áreas también tienen su nombre), en los 
ítemes siguientes el área sólo está marcada con 
la letra P, y en los ítemes finales se presenta el 
área sin ningún rótulo. 

2. El sistema inductivo-deductivo es más útil 
en materiales que deben ser conceptualizados 
como física, álgebra, circuitos electrónicos y 
derecho. Cada uno de los ítemes presenta una 
afirmación general, una afirmación específica o 
una combinación general/específica. La afirma- 
ción puede ser completa no requiriendo respues- 
ta por parte del alumno; o incompleta pidién- 
dole al alumno que complete los elementos que 
faltan. L. E. Home y R. Glaser describen un 
programa para enseñar parte del curso de física 
de secundaria. El ítem -—“Cuanto más se ca- 
lienta la fuente incandescente de luz, mayor 
será la luz que emita. Por ejemplo, un objeto 
calentado a 900%, emitirá más luz que el 
mismo objeto calentado a 800%C, porque la 
> de la luz emitida depende de la tem- 
peratura del objeto”— consta de una afirmación 
generalizada completa, una afirmación especí- 
fica completa y de una afirmación generalizada 
incompleta. El ítem —-“La luz de la flama de 
una vela proviene de los —-——- desprendidos 
por los cambios químicos conforme la vela se 
quema”-- consta de una afirmación específica 
simple. Cada ítem, por supuesto, debe tener 
como mínimo una afirmación incompleta para 
garantizar cuando menos una respuesta por 
parte del alumno. 

Un programa recién elaborado se puede corre- 
gir poniendo a un alumno a trabajar en él. Por 
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supuesto, un programa es perfecto cuando hace 
que el alumno emita una serie interminable 
de respuestas correctas. Por lo tanto, cuando 
muchos alumnos fallan en un ítem determinado, 
el diseñador del programa deberá revisar dicho 
ítem (en la práctica, se tolera una frecuencia 
de error de 5%); esto es opuesto a la construc- 
ción ortodoxa de exámenes donde un ítem sin 
errores es eliminado porque no discrimina. Este 
factor de auto-corrección de los programas es 
una virtud inherente que no está presente, diga- 
mos, al escribir un libro de texto; un progra- 
mador invariablemente elimina los ítemes defi- 
cientes, mientras que el autor de un libro de 
texto puede no llegar a conocer, ni mejorar, la 
frase que se entiende mal o que no comunica 
nada al alumno. 

Una máquina de enseñanza es un aparato 
que le presenta al alumno el programa, Ítem 
por ítem. La máquina más sencilla es en for- 
ma de un libro convencional. El alumno tapa 
la respuesta del primer ítem, escribe su res- 
puesta, las compara y entonces pasa al sengudo 
ítem. Dado que el logro es reforzante, hay una 
tendencia a hacer trampa, como en el solitano. 
Por lo tanto, los libros programados son infe- 
riores a las máquinas de enseñanza. En las 
máquinas de enseñanza el alumno sólo puede 
leer un ítem a la vez, escribe la respuesta, des- 
cubre la respuesta correcta, y después registra 
su éxito o fracaso apretando el botón apropia- 
do. El siguiente ítem aparece automáticamente. 
En la universidad de Harvard, donde se inven- 
taron las máquinas de enseñanza, los alumnos 
de psicología general reciben simultáneamente 
instrucción programada en un cuarto de máqui- 
nas de enseñanza; se les enseña automática- 
mente durante cerca de 15 horas por semestre el 
tema del condicionamiento operante —el equi- 
valente aproximadamente a 200 páginas de un 
libro de texto común. Nuestra tecnología en la 
actualidad ha producido máquinas de enseñan- 
za mejoradas. En uno de los modelos, el alumno 


indica su respuesta usando una máquina de 
escribir de teletipo adyacente. La respuesta del 
alumno se compara automáticamente-- letra 
por letra con la respuesta correcta, que previa- 
mente ha sido codificada en la máquina. Si 
la respuesta es correcta, aparece un nuevo ítem; 
si es incorrecta, una luz marca el error y el 
estudiante intenta otra vez. Puesto que es po- 
sible que el alumno nunca conteste correcta- 
mente, la máquina se da por vencida después 
de 10 intentos y pasa al ítem siguiente. 

Se han escrito más de trescientos diferentes 
programas para cada nivel educacional -—desde 
primaria hasta profesional— para cubrir el am- 
plio complejo de materias incluyendo Cómo 
decir la hora, Los primeros pasos en lectura, 
Ortografía, Multiplicación y división, Español 
básico, Fundamentos de álgebra, y Fundamen- 
tos de física. 

N. Crowder propuso un tipo alternativo de 
aprendizaje programado basado en la filosofía 
educacional tradicional y no en los principios 
del condicionamiento operante.'?* En los pro- 
gramas de Crowder un ítem a menudo contiene 
segmentos de temas largos y difíciles y exige al 
alumno seleccionar una de las varias respues- 
tas. Si el alumno hace la elección correcta, sigue 
adelante al ítem que se le designa. Si, en cam- 
bio, el alumno escoge una respuesta incorrecta, 
se le desvía primero a un grupo de ítemes que 
explican su error y entonces regresa al ítem ori- 
ginal con instrucciones de escoger otra respuesta. 
Si después de esto selecciona la respuesta co- 
rrecta, sigue adelante y si no, se le desvía a otro 
grupo de ítemes diferente. En resumen, el pro- 
grama de Crowder se ramifica cuando el alumno 
comete un error, mientras que el programa de 
Skinner nunca se ramifica (es lineal), y no lo 
necesita puesto que el alumno casi nunca co- 
mete errores. La ramificación de Crowder llega 


15 Skinner opina que los programas ramificados son 
simplemente una variación de los procedimientos del 
condicionamiento operante. 


PROGRAMACION LINEAL 


O = ttem 
0-0-0-0-0-0-0-0-0-0-0-0 


PROGRAMACION RAMIFICADA 


O = ltem 


Los ¡temes colaterales sirven para explicar los errores, el 
alumno es remitido al ítem original para que intente otra vez. 


NYYS 


Un circuito obliga al alumno a revisar varios Ítemes. 


+ 


O_—— 


O o 


El “directo” envia a los buenos alumnos directamente a 
través del programa; a los alumnos mediocres los desvia a 
los ítemes laterales en busca de explicación. 


FIGURA S-16b. Los programas ramificados son una alter- 
nativa de los programas lineales de Skinner para las má- 
quinas de enseñanza. Aquí se presentan los diagramas de 
algunas de las diversas formus de los programas rami- 
ficados. 
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a ser bastante complicada, limitada únicamente 
por la imaginación del programador; el diagrama 
de algunas de las formas de ramificación en 
laberinto se presentan en la figura 5-16b., 

Estc es un ítem típico de un programa de 
Crowder de operaciones aritméticas que con- 
tiene cuatro párrafos de discusión sobre el sis- 
tema decimal, con la pregunta siguiente: “¿Di- 
ría usted que los números 496 y 0.29 están 
ambos escritos en decimales?” Si el alumno 
responde que si, se le remite a otro ítem el cual 
explica con detalle por qué está equivocado; en 
seguida, se le indica que regrese al primer ítem 
y escoja otra respuesta. Cuando el alumno fi- 
nalmente hace la selección correcta se le manda 
a otro ítem que dice “correcto”, se le da más 
información y se le hace otra pregunta: “¿Sabe 
usted o ha oído alguna vez de otro sistema nu- 
mérico que represente cantidades además de 
nucstro conocido sistema decimal de 10 dígitos?” 
en seguida tres alternativas. Aun cuando esta 
técnica de programación tiene virtudes obvias 
ha sido criticada por que se considera que el 
coloquio entre programa y alumno es exagera- 
damente dulce, paternal, empalagoso; algunos 
de los programas de Crowder amonestan: “us- 
ted no está poniendo atención”, algunos adu- 
lan: “Lo siento pero no es tan simple”, otros 
alaban: “Bien hecho”, y algunos elogian aun 
cuando no se merece; “¡Eso es coraje! Si no 
sabe, d'galo.” 

Algunos de los programas ramificados de 
Crowder han aparecido como libros sin orden 
(bajo el nombre comercial de “Tutor text”); 
los ítemes están dispersos y en desorden de modo 
que el alumno se salta páginas hacia adelante 
o hacia atrás conforme se le indica dependiendo 
del programa y de los errores que cometa. Los 
programas ramificados también se presentan en 
máquinas capaces de provectar cada uno de los 
cientos de ítemes que están registrados en una 
película continua. El alumno lee un ítem y 
aprieta un botón para indicar su respuesta. La 
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máquina inmediatamente busca, encuentra y 
proyecta el ítem correspondiente —-sin importar 
cual sea el ítem que sigue en la secuencia— y 
lo proyecta automáticamente. 

En la universidad de Illinois hay una super- 
máquina de enseñanza llamada PLATO (Pro- 
grammed Logic for Automatic Teaching Ope- 
rations — Lógica Programada para Operaciones 
de Enseñanza Automática) esta máquina se 
logró conectando una pantalla de televisión a 
una computadora CDC 1604 que almacena 
miles de ítemes con un adecuado y complejo 
sistema de ramificación, Cuando el alumno 
aprieta el botón de la respuesta (o toca la pan- 
talla de televisión), la computadora considera si 
la respuesta es correcta, el tiempo de reacción, la 
historia previa de ítemes equivocados y el tipo 
de ramificación que está disponible. Entonces 
la computadora selecciona un nuevo ítem. PLA- 
TO puede enseñar a cientos de alumnos al mis- 
mo tiempo en diferentes cubículos en diferentes 
partes de la ciudad; véase la figura 5-16c. 

Casi todos los educadores están de acuerdo 
en que las máquinas pueden enseñar eficazmente 
materiales que deben ser memorizados; en rea- 
lidad, las máquinas primitivas (transparencias) 
para matemática, y vocabulario de idiomas se 
han utilizado desde hace mucho. 

Los educadores no están de acuerdo en lo 
que respecta a la habilidad de las máquinas 
para enseñar otro tipo de materiales. Los anta- 
gonistas alegan que el aprendizaje programado 
no puede lograr los amplios objetivos de la edu- 
cación contemporánea. Sostienen que los alum- 
nos a los que se les enseña como palomas, actúan 
como palomas -—con una singular falta de ori- 
ginalidad-— puesto que la naturaleza del apren- 
dizaje programado es impersonal y no representa 
un reto para el alumno, no permite más que 
respuestas estereotipadas que son las que exige 
el programa. Los antagonistas acusan a los pro- 
gramas de que no transmiten a los alumnos 
el entusiasmo contagioso por el tema, no le per- 
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FIGURA 5-T6c. El niño del futuro enseñado por una má- 
quina de enseñanza del futuro. La méquina está unida a 


miten el lujo de aprender — por ejemplo, estra- 
tegias para memorizar y resolver problemas- - 
no le permiten emocionarse con el descubri- 
miento independiente de las leyes de la natu- 
raleza, no le proporcionan el sentido histórico 
de los personajes claves y de las circunstancias 
decisivas de la civilización occidental. Los anta- 
gonistas también sostiene que el aprendizaje 
programado interrumpe la adquisición de hábi- 
tos de lectura y obstruye el surgimiento de in- 
terés en la lectura, Los que estudian con los 
cursos programados no aprenden a aumentar 
la velocidad de lectura. No se les proporciona 
experiencia en el mecanismo de persecución del 
conocimiento; por ejemplo, los libros progra- 
mados no tienen índice. Los que aprenden con 
cursos programados nunca adquieren una apre- 
ciación del arte de escribir, por ejemplo, una 


una computadora que almacena un número ilimitado de 
ítemes y procesa un sinfín de respuestas. 


revista New Yorker programada seríá tan volu- 
minosa como un directorio telefónico e igual- 
mente aburrido, Por último, los que se oponen 
al aprendizaje programado ponen en duda la 
aceptación que tienen los programas entre los 
estudiantes. Fueron estudiantes universitarios 
los que colgaron una máquina de enseñanza en 
efigie con un letrero que decía “Soy un gigan- 
te vendedor de conocimientos. Proporciono pe- 
queños pasos, para gente pequeña, con mentes 
pequeñas.” 

Por otra parte sus patrocinadores, consideran 
que las máquinas de enseñanza son una con- 
secuencia deseable e inevitable del cambio in- 
dustrial. Apoyan el aprendizaje programado 
porque enseña bien a todos los estudiantes, bue- 
nos o malos. En este punto los patrocinadores 
son especialmente críticos de los maestros con- 
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temporáneos que no enseñan cada unidad de 
conocimiento a cada uno de los alumnos, que 
perpetúan la práctica arcaica de la doctrina 
medioeval de la motivación por “temor al fra- 
caso”. Postulan, citando evidencia experimental 
acumulada en su laboratorio, que las habilida- 
des de pensar y resolver problemas se enseñan 
magníficamente con programas especialmente 
diseñados. Alegan que los programas para habi- 
lidades literarias enseñan a los alumnos más que 
cualquier contacto de ensayo y error con la bi- 
blioteca. Están convencidos de que los progra- 
mas bien escritos pueden enseñar, directamente, 
lectura-veloz. Algunos patrocinadores piensan 
que aún la apreciación del arte puede ser pro- 
eramada. Un investigador de las máquinas de 
enseñanza, William E. Montague, pronostica el 


RESUMEN: 


1. Las respuestas operantes condicionadas se 
establecen sobre respuestas emitidas, mientras 
que los reflejos condicionados clásicos lo son 
sobre respuestas respondientes provocadas. Dado 
que los animales superiores exhiben más res- 
puestas operantes que respondientes poseen ma- 
yor número de respuestas operantes condicio- 
nadas que reflejos condicionados clásicos, 

2. Los experimentos operantes y clásicos pue- 
den ser casi idénticos. 

3. La Ley del Efecto de Thorndike es un 
cimiento teórico para la adquisición y extinción 
de respuestas operantes condicionadas. En la 
práctica el extremo “recompensa” no es el rever- 
so exacto del extremo “negativo”. 

4. Existen ocho procedimientos de condi- 
cionamiento operante, Cuatro de ellos —-entre- 
namiento de recompensa, entrenamiento de pri- 
vación, entrenamiento de escape, entrenamiento 
de evitación-—, fortalecen la respuesta, Cua- 
tro de ellos —entrenamiento de omisión, entre- 


siglo de las máquinas de enseñanza: “El salón 
de clases del futuro consistirá de 10000 pan- 
tallas de televisión con tableros de control en las 
casas de 10000 estudiantes. Una computadora 
central programará cualquiera de los cientos 
de diferentes materias para cada uno de los 
estudiantes quienes progresarán a su propio 
paso y conveniencia. El edificio escolar común, 
alimentado cada mañana por largas filas de 
camiones amarillos, dejará de existir, Y las 
calificaciones reflejarán el progreso de alumnos 
buenos y malos sin errores. Una calificación 
de 6 indicará que el alumno completó sólo la 
mitad del curso. Se le dará un 10 a cual- 
quier alumno que haya terminado, puesto que 
todos y cada uno de ellos tendrá una ejecución 
perfecta.” 


namiento de cesación, entrenamiento de soltar, y 
entrenamiento de castigo — debilitan la res- 
puesta. 

5. Se han condicionado, operantemente, ani- 
males de casi toda la escala filogenética. La 
técnica general es el empleo de una caja de 
Skinner. 

6. El moldeo es un método de establecer una 
respuesta condicionada bajo un entrenamiento 
de recompensa mediante aproximaciones su- 
cesivas. 

7. Una respuesta operante establecida se pue- 
de mantener por reforzamiento continuo o in- 
termitente - razón fija, intervalo fijo, razón va- 
riable e intervalo variable-- y cada uno tiene 
su registro acumulado único. 

8. La adquisición de una respuesta condi- 
cionada bajo un entrenamiento de recompensa 
depende de muchas variables tales como: moti- 
vación, cantidad de recompensa y la duración 
del periodo entre ensayos. 
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9. Una respuesta condicionada bajo un entre- 
namiento de recompensa se puede reforzar me- 
diante reforzadores condicionados. Bajo condi- 
ciones apropiadas el reforzador condicionado se 
puede convertir en un reforzador condicionado 
generalizado. 

10. La adquisición de una respuesta condi- 
cionada bajo un entrenamiento de recompensa 
se puede caracterizar además, por la supersti- 
ción, la premonición y el encadenamiento. 

11. La respuesta condicionada bajo un en- 
trenamiento de recompensa exhibe generaliza- 
ción y, después del aprendizaje apropiado, dis- 
criminación. 

12. Las respuestas operantes condicionadas 
no desaparecen meramente con el paso del tiem- 
po. La extinción de una respuesta operante con- 
dicionada ocurre cuando el reforzamiento no 
sigue a la respuesta condicionada. 

13. Las respuestas operantes condicionadas 
que se adquirieron mediante un reforzamiento 
intermitente tienen una mayor resistencia a la 
extinción que aquellas adquiridas mediante un 
reforzamiento continuo. 

14. Mientras que la desaparición de una 
respuesta condicionada bajo un entrenamiento 
de recompensa puede acelerarse mediante el 


castigo, la respuesta condicionada es meramente 
suprimida y no sufre extinción. 

15. Las aplicaciones prácticas del entrena- 
miento de escape son limitadas, dado que la 
respuesta condicionada debe adquirirse en pre- 
sencia de un estímulo aversivo. 

16. Una respuesta condicionada bajo un en- 
trenamiento de evitación puede establecerse con 
o sin un estímulo discriminativo específico. 

17. La respuesta condicionada bajo un en- 
trenamiento de evitación tiene una resistencia 
prodigiosa a la extinción. 

18. El stress producido por el entrenamiento 
de evitación puede causar un extenso daño fi- 
siológico. 

19. Las drogas tienen un marcado efecto 
sobre las respuestas operantes condicionadas, lo 
cual constituye una ayuda para la evaluación 
farmacológica. 

20. Los procedimientos del condicionamien- 
to operante se utilizan ampliamente en la mo- 
dificación de la conducta humana. 

21. El aprendizaje programado lineal se basa 
directamente en el condicionamiento operante. 
El aprendizaje programado ramificado se basa 
en los métodos educativos tradicionales e indi- 
rectamente en el condicionamiento operante. 
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Holland y Skinner (1961), Skinner (1956), (1957), 
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